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Spring Batch 介 绍 


在 企业 领域 ,有 很 多 应 用 和 系统 需要 在 生产 环境 中 使 用 批 处 理 来 执行 大 量 的 业务 操作 . 批 处 理 业 务 需要 自动 地 对 海量 数据 信息 进 
行 各 种 复杂 的 业务 逻辑 处 理 ,同时 具备 极 高 的 效率 ,不 需要 人 工 干预 .执行 这 种 操作 通常 根据 时 间 事 件 (如 月 末 统 计 , 通 知 或 信件 )， 
或 者 定期 处 理 那 些 业务 规则 超级 复杂 ,数据 量 非常 庞大 的 业务 ,( 如 保险 赔款 确定 ,利率 调整 ), 也 可 能 是 从 内 部 /外 部 系统 抓 取 到 的 
各 种 数据 , 通常 需要 格式 化 、 数 据 校 验 、 并 通过 事务 的 方式 处 理 到 自己 的 数据 库 中 . 企业 中 每 天 通过 批 处 理 执行 的 事务 多 达 数 
Tit. 


Spring Batch 是 一 个 轻 量 级 的 综合 性 批 你 理 框 架 , 可 用 于 开发 企业 信息 系统 中 那些 至 关 重要 的 数据 批量 处 理 业务 . Spring Batch 
基于 POJO 和 Spring 框 架 , 相 当 容 易 上 手 使 用 ,让 开发 者 很 容易 地 访问 和 利用 企业 级 服务 . Spring Batch 不 是 调度 (scheduling) 框 
架 . 因为 已 经 有 很 多 非常 好 的 企业 级 调度 框架 ,包括 商业 性 质 的 和 开源 的 , 例如 Quartz, Tivoli, Control-M 等 . 它 是 为 了 与 调度 程序 
一 起 协作 完成 任务 而 设计 的 ,而 不 是 用 来 取代 调度 框架 的 . 


Spring Batch 提 供 了 大 量 的 ,可 重用 的 功能 ， 这 些 功 能 对 大 数据 处 理 来 说 是 必 不 可 少 的 ， 包 括 日 志 / 跟 踪 (tracing)， 事 务 管理 ， 
任务 处 理 (processing) 统 计 ， 任 务 重启 ， 忽略 (skip)， 和 资源 管理 等 功能 。 此 外 还 提供 了 许多 高 级 服务 和 特性 , 使 之 能 够 通过 
优化 (optimization ) 和 分 片 技术 (partitioning techniques) 来 高 效 地 执行 超大 型 数据 集 的 批 处 理 任 务 。 





Spring Batch 是 一 个 具有 高 可 扩展 性 的 框架 ,简单 的 批 处 理 ,或 者 复杂 的 大 数据 批 处 理 作 业 都 可 以 通过 Spring Batch 框 架 来 实 
现 。 
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在 开源 项 目 及 其 相关 社区 把 大 部 分 注意 力 集中 在 基于 web 和 SOA 基 于 消息 机 制 的 框架 中 时 ， 基 于 java 的 批 处 理 框架 却 无 人 问 
津 ， 尽 管 在 企业 IT 环境 中 一 直 都 有 这 种 批 处 理 的 需求 。 但 因为 缺乏 一 个 标准 的 、 可 重用 的 批 处 理 框 架 导致 在 企业 客户 的 IT 系 
统 中 存在 着 很 多 一 次 编写 ,一 次 使 用 的 版 本 ,以 及 很 多 不 同 的 内 部 解决 方案 。 


SpringSource 和 Accenture ( 埃 森 哲 ) 致 力 于 通过 合作 来 改善 这 种 状况 。 埃 森 哲 在 实现 批 处 理 架 构 上 有 着 丰富 的 产业 实践 经 
验 ,SpringSource 有 深入 的 技术 开发 积累 , 背 靠 Spring 框 架 提供 的 编程 模型 ,意味 着 两 者 能 够 结合 成 为 默契 且 强 大 的 合作 伙伴 , 创 
造 出 高 质量 的 、 市 场 认可 的 企业 级 java 解 决 方案 ,填补 这 一 重要 的 行业 空白 。 两 家 公司 目前 也 正 着 力 于 开发 基于 spring 的 批 处 
理解 决 方案 ， 为 许多 客户 解决 类 似 的 问题 。 这 同时 提供 了 一 些 有 用 的 额外 的 细节 和 以 及 真实 环境 的 约束 ,有 助 于 确保 解决 方案 
能 够 被 客户 用 于 解决 实际 的 问题 。 基 于 这 些 原因 ,SpringSource 和 埃 森 哲 一 起 合作 开发 Spring Batch. 


埃 森 哲 已 经 贡献 了 先前 自己 的 批 处 理 体 系 结构 框架 ,这 个 框架 基于 数 十 年 宝贵 的 经 验 并 基于 最 新 的 软件 平台 (如 
COBOL/Mainframe, C++/Unix 及 现在 非常 流行 的 Java 平 台 ) 来 构建 Spring Batch 项 目 , Spring Batch 未 来 将 会 由 开源 社区 提交 
者 来 驱动 项 目的 开发 ,增强 ,以 及 未 来 的 路 线 图 。 


埃 森 哲 咨询 公司 与 SpringSource 合 作 的 目标 是 促进 软件 处 理 方法 、 框 架 和 工具 的 标准 化 改进 ， 并 在 创建 批 处 理应 用 时 能 够 持 
续 影响 企业 用 户 。 企 业 和 政府 机 构 希 望 为 他 们 提供 标准 的 、 经 验证 过 的 解决 方案 ， 而 他 们 的 企业 系统 也 将 受益 于 Spring 
Batch. 


Tr 
zH 
a 
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使 用 场景 


典型 的 批 处 理 程序 通 


JE, 


业务 场景 


定期 提交 批 处 理 任 务 

并 发 批 处 理 : 并 行 执行 任务 

分 阶段 ， 企 业 消息 驱动 处 理 

高 并 发 批 处 理 任务 

失败 后 手动 或 定时 重启 

按 顺 序 处 理 任务 依赖 (使 用 工作 流 驱 动 的 批 处 理 插 件 ) 

局 部 处 理 : 跳 过 记录 (例如 在 回 滚 时 ) 

完整 的 批 处 理事 务 : 因为 可 能 有 小 数据 量 的 批 处 理 或 存在 存储 过 程 /脚本 


技术 目标 





利用 Spring 编程 模式 : 使 开发 者 专注 于 业务 逻辑 ， 让 框架 解决 基础 功能 

在 基础 架构 、 批 处 理 执行 环境 、 批 处 理应 用 之 间 有 明确 的 划分 

以 接口 形式 提供 通用 的 核心 服务 ， 以 便 所 有 项 目 都 能 使 用 

提供 简单 的 默认 实现 ， 以 实现 核心 执行 接口 的 “ 开 箱 即 用 "” 

易于 配置 、 定 制 和 扩展 服务 ,基于 spring 框 架 的 各 个 层面 

所 有 的 核心 服务 都 可 以 很 容易 地 扩展 与 替换 ， 却 不 会 影响 基础 系统 层 。 

提供 一 个 简单 的 部 署 模型 ， 通 过 Maven 编 译 ,将 应 用 程序 与 框架 的 JAR 包 完全 分 离 








使 | 











场景 


常 是 从 数据 库 、 文 件 或 队列 中 读 取 大 量 数据 ， 然 后 通过 某 些 方法 处 理 数据 ， 最 后 将 处 理 好 格式 的 数据 写 
回 库 中 。 通 常 SpringBatch 工 作 在 离线 模式 下 ,不 需要 用 户 干预 、 就 能 自动 进行 基本 的 批 你 理 迭 代 ， 进 行 类 似 事务 方式 的 处 
批 处 理 是 大 多 数 [T 项 目的 一 个 组 成 部 分 ， 而 Spring Batch 是 唯一 能 够 提供 健壮 的 企业 级 扩展 性 的 批 处 理 开源 框架 。 
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Spring Batch 设计 时 充分 考虑 了 可 扩展 性 和 各 类 终端 用 户 。 下 图 显示 了 Spring Batch 的 架构 层次 示意 图 ,这 种 架构 层次 为 终端 
用 户 开 发 者 提供 了 很 好 的 扩展 性 与 易 用 性 . 





图 1.1: Spring Batch 分 层 架 构 

Spring Batch 架构 主要 分 为 三 类 高 级 组 件 : 应 用 层 (Application), 2 (Core) 和 基础 架构 层 (Infrastructure)。 

应 用 层 (Application) 包 括 开 发 人 员 用 Spring batch 编 写 的 所 有 批 处 理 作 业 和 自 定义 代码 。 

Batch 核 心 (Batch Core) 包含 加 载 和 控制 批 多 理 作业 所 必需 的 核心 类 。 包 括 JobLauncher, Job, 和 Step 的 实现 . 


应 用 层 (Application) 与 核心 等 (Core) 都 构建 在 通用 基础 架构 层 之 上 . 基础 架构 包括 通用 的 readers(ItemReader) 和 writers( 
ltemWriter), 以 及 services (如 重 试 模块 RetryTemplate), 可 以 被 应 用 层 和 核心 层 所 使 用 . 


Spring Batch 架 构 
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用 批 处理 的 指导 原则 


是 一 些 关 键 的 指导 原则 ,在 构建 批 处 理解 决 方案 可 以 参考 


批 人 处理 架构 通常 会 影响 在 线 服 务 的 架构 ,反之 亦 然 。 设 计 架 构 和 环境 时 请 尽 可 能 使 用 公共 的 模块 。 

尽 可 能 的 简化 ,避免 在 单个 批 处 理应 用 中 构建 复杂 的 逻辑 结构 。 

尽 可 能 在 数据 存放 的 地 方 处 理 这 些 数据 ,反之 亦 然 ( 即 ， 各 自负 责 处 理 自己 的 数据 )。 

尽 可 能 少 的 使 用 系统 资源 ,尤其 是 MO。 尽 可 能 多 地 在 内 存 中 执行 大 部 分 操作 。 

审查 应 用 程序 /O( 分 析 SQL 语 句 ) 以 避免 不 必要 的 物理 WO。 特 别 是 以 下 四 个 常见 的 缺陷 (flaws) 需 要 避免 : 
o 在 每 个 事务 中 都 将 (所 有 并 不 需要 的 ) 数 据 读 取 , 并 缓存 起 来 ; 

o 多 次 读 取 / 查 询 同 一 事务 中 已 经 读 取 过 的 数据 ; 

o 引起 不 必要 的 表 或 素 引 扫描 

o 在 SQL 语句 的 WHERE 子 句 中 不 指定 过 滤 条 件 。 


在 同一 个 批 处 理 不 要 做 两 次 一 样 的 事 。 例 如 ,如 果 你 需要 报表 的 数据 汇总 ,请 在 处 理 每 一 条 记录 时 使 用 增 量 来 存储 , 尽 可 能 


FEA A AREAS. 
在 批 处 理 程 序 开 始 时 就 分 配 足 够 的 内 存 ,以 避免 运行 过 程 中 再 执行 耗 时 的 内 存 分 配 。 
总 是 将 数据 完整 性 假定 为 最 坏 情况 。 插 入 适当 的 检查 和 数据 校 验 以 保持 数据 完整 性 (integrity)。 





如 有 可 能 ,请 为 内 部 校 验 实现 checksum。 例 如 ,平面 文件 应该 有 一 条 结尾 记录 ,说 明文 件 中 的 总 记录 数 和 关键 字段 的 集合 


(aggregate)。 
尽 可 能 早 地 在 模拟 生产 环境 下 使 用 真实 的 数据 量 ， 进 行 计划 和 执行 压力 测试 。 


在 大 型 批 处 理 系统 中 ,各 份 会 是 一 个 很 大 的 挑战 ,特别 是 7x24 小 时 不 间断 的 在 线 服务 系统 。 数 据 库 各 份 通常 在 设计 时 就 考 
虑 好 了 ,但 是 文件 备份 也 应 该 提升 到 同 养 的 重要 程度 。 如 果 系 统 依赖 于 文本 文件 ,文件 各 份 程序 不 仅 要 正确 设置 和 形成 文 


档 , 还 要 定期 进行 测试 。 


] 批 处 理 的 指导 原则 
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为 了 辅助 批 处 理 系 统 的 设计 和 实现 、 应 该 通过 结构 示意 图 和 代码 实例 的 形式 为 设计 病 和 程序 员 提 供 基 础 的 批 处 理 程序 构建 模 
块 和 以 及 义理 模式 . 在 设计 批 处 理 Job 时 ,应 该 将 业务 逮 辑 分 解 成 一 系列 的 步骤 ,使 每 个 步骤 都 可 以 利用 以 下 的 标准 构建 模块 来 
实现 : 


转换 程序 (Conversion Applications): 由 外 部 系统 提供 或 需要 写 入 到 外 部 系统 的 各 种 类 型 的 文件 ,我 们 都 需要 为 其 创建 一 个 
转换 程序 , 用 来 将 所 提供 的 事务 记录 转换 成 符合 要 求 的 标准 格式 .这 种 类 型 的 批 处 理 程 序 可 以 部 分 或 全 部 由 转换 工具 模块 
组 成 (translation utility modules)( 参 见 Basic Batch Services, 基 本 批 处 理 服务 ). 

验证 程序 (Validation Applications): 验证 程序 确保 所 有 输入 /输出 记录 都 是 正确 和 一 致 的 .验证 通常 基于 文件 头 和 结尾 信息 ， 
校 验 和 (checksums) 以 及 记录 级 别 的 交叉 验证 算法 . 

提取 程序 (Extract Applications): 这 种 程序 从 数据 库 或 输入 文件 读 取 一 堆 记 录 , 根 据 预 定义 的 规则 选取 记录 ,并 将 选取 的 记录 
写 入 到 输出 文件 . 

提取 /更 新 程序 (Extract/Update Applications): 这 种 程序 从 数据 库 或 输入 文件 读 取 记录 ,并 将 输入 的 每 条 记录 都 更 新 到 数据 
库 , 或 记录 到 输出 文件 . 

处 理 和 更 新 程序 (Processing and Updating Applications): 这 种 程序 对 从 提取 或 验证 程序 传 过 来 的 输入 事务 记录 进行 处 
理 .这 些 处 理 通常 包括 从 数据 库 读 取 数 据 ,有 可 能 更 新 数据 库 ,并 创建 输出 记录 . 

输出 /格式 化 程序 (Output/Format Applications): 这 种 程序 从 输入 文件 中 读 取 信息 ,将 数据 重组 成 为 标准 格式 ,并 打印 到 输出 
文件 ,或 者 传输 给 另 一 个 程序 或 系统 . 


为 业务 逻辑 不 能 用 上 面 介 绍 的 这 些 标准 模块 来 完成 , 所 以 还 需要 另外 提供 一 个 基本 的 程序 外 这 (application shell). 


除了 这 些 主要 的 模块 ,每 个 应 用 还 可 以 使 用 一 到 多 个 标准 的 实用 程序 环节 (standard utility steps), 如 : 


Sort 排序 ,排序 程序 从 输入 文件 读 取 记 录 , 并 根据 记录 中 的 某 个 key 字 段 重新 排序 ,然后 生成 输出 文件 . 排序 通常 由 标准 的 系 
统 实用 程序 来 执行 . 

Split 拆 分 , 拆 分 程序 从 单个 输入 文件 中 读 取 记录 ,根据 某 个 字段 的 值 ,将 记录 写 入 到 不 同 的 输出 文件 中 . 拆 分 可 以 自 定义 或 
者 由 参数 驱动 的 (parameter-driven) 系 统 实 用 程序 来 执行 . 

Merge 合并 ,合并 程序 从 多 个 输入 文件 读 取 记录 ,并 将 组 合 后 的 数据 写 入 到 单个 输出 文件 中 . 合并 可 以 自 定义 或 者 由 参数 驱 
动 的 (parameter-driven) 系 统 实用 程序 来 执行 . 


批 处 理 程序 也 可 以 根据 输入 来 源 分 类 : 


数据 库 驱 动 (Database-driven) 的 应 用 程序 , 由 从 数据 库 中 获取 的 行 或 值 驱动 . 
文件 驱动 (File-driven) 的 应 用 程序 ,是 由 从 文件 中 获取 的 值 或 记录 了 驱动 的 . 
消息 驱动 (Message-driven) 的 应 用 程序 由 从 消息 队列 中 检索 到 的 消息 驱动 . 


所 有 批 处 理 系统 的 基础 都 是 处 理 策 略 .影响 策略 选择 的 因素 包括 : 预 估 的 批 处 理 系统 容量 , 在 线 并 发 或 与 另 一 个 批 处 理 系 统 的 并 
RS, 可 用 的 批 处 理 时 间 窗 口 ( 随 着 越 来 越 多 的 企业 想 要 全 天 候 (7X24 小 时 ) 运 转 ,所 以 基本 上 没有 明确 的 批 处 理 窗 口 ). 


典型 的 批 处 理 选 项 包括 : 


在 一 个 批 处 理 窗 口中 执行 常规 离线 批 处 理 

并 发 批 处 理 /在 线 处 理 

同一 时 刻 有 许多 不 同 的 批 处 理 (runs or jobs) 在 并 行 执行 
分 区 ( 即 同 一 时 刻 ,有 多 个 实例 在 处理 同一 个 job) 

上 面 这 些 的 组 合 


上 面 列 表 中 的 顺序 代表 了 批 你 理 实现 复杂 性 的 排序 ,在 同一 个 批 你 理 窗 口 的 处 理 最 简单 ,而 分 区 实现 最 复杂 . 


商业 调度 器 可 能 支持 上 面 的 部 分 /或 所 有 类 型 . 


下 面 的 部 分 将 详细 讨论 这 些 处 理 选项 .需要 特别 注意 的 是 , 批 处 理 所 采 用 的 提交 和 锁定 策略 将 依赖 于 处 理 执行 的 类 型 ,作为 最 佳 
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实践 ,在 线 锁 策略 应 该 使 用 相同 的 原则 .因此 ,在 设计 批 处 理 整 体 架 构 时 不 能 简单 地 拍 脑袋 决定 (译注 : 即 需要 详细 的 论证 和 分 析 ). 


锁 策略 可 以 只 使 用 普通 的 数据 库 锁 ,也 可 以 在 架构 中 实现 自 定义 的 锁 服 务 . 锁 服 务 将 跟踪 数据 库 锁 定 (例如 在 一 个 专用 的 数据 库 
表 (db-table) 中 存储 必要 的 信息 ), 然 后 在 应 用 程序 请 求 数据 库 操 作 时 授予 权限 或 拒绝 . 重 试 逻辑 也 可 以 通过 这 种 架构 实现 ,以 避免 
批 处理 作业 因为 资源 锁定 的 情况 而 失败 . 


1. 在 一 个 批 处 理 窗口 中 的 常规 处 理 对 于 运行 在 一 个 单独 批 义理 窗口 中 的 简单 批 处 理 ,更 新 的 数据 对 在 线 用 户 或 其 他 批 处 理 来 说 
并 没有 实时 性 要 求 ,也 没有 并 发 问题 ,在 批 处 理 运行 完成 后 执行 单 次 提交 即 可 . 


大 多 数 情况 下 ,一 种 更 健壮 的 方法 会 更 合适 .要 记 住 的 一 件 事 是 , 批 你 理 系 统 会 随 着 时 间 的 流逝 而 增长 ,包括 复杂 度 和 需要 处理 的 
数据 量 .如 果 没 有 合适 的 锁定 策略 ,系统 仍然 依赖 于 一 个 单一 的 提交 点 , 则 修改 批 你 理 程序 会 是 一 件 痛苦 的 事情 .因此 ,即使 是 最 简 
单 的 批 处 理 系 统 ,也 应 该 为 重启 -恢复 (restart-recovery) 选 项 考虑 提交 逻辑 ,更 不 用 说 下 面 涉及 到 的 那些 更 复杂 情况 下 的 信息 . 


2. 并 发 批 处 理 / 在 线 处 理 批 处 理 程序 处 理 的 数据 如 果 会 同时 被 在 线 用 户 更 新 ,就 不 应 该 锁定 在 线 用 户 需要 的 所 有 任何 数据 (不 管 
是 数据 库 还 是 文件 ), 即 使 只 需要 锁定 几 秒 钟 的 时 间 . 还 应 该 每 处 理 一 批 事 务 就 提交 一 次 数据 库 . 这 减少 了 其 他 程序 不 可 用 的 数据 ， 
也 压缩 了 数据 不 可 用 的 时 间 . 


li] 
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原来 的 时 间 惟 作为 条 件 .如 果 时 间 戳 相 匹配 , 则 数据 和 时 间 戳 都 更 新 成 功 .如 果 时 间 惟 不 匹配 ,这 表明 在 本 程序 上 次 获取 和 此 
次 更 新 这 段 时 间 内 已 经 有 另 一 个 程序 修改 了 同一 条 记录 ,因此 更 新 不 会 被 执行 . 


o 翡 观 锁定 策略 假设 记录 争 用 的 可 能 性 很 高 ,因此 在 检索 时 需要 获得 一 个 物理 锁 或 逮 辑 锁 . 有 一 种 悲观 逮 辑 锁 在 数据 表 中 使 用 
一 个 专用 的 lock-column 列 . 当 程 序 想 要 为 更 新 目的 而 获取 一 行 时 , 它 在 lock column 上 设置 一 个 标志 .如 果 为 某 一 行 设置 了 标 
志 位 ,其 他 程序 在 试图 获取 同一 行 时 将 会 逻辑 上 获取 失败 . 当 设置 标志 的 程序 更 新 该 行 时 , 它 也 同时 清除 标志 位 ,允许 其 他 程 
序 获取 该 行 .请 注意 ,在 初步 获取 和 初次 设置 标志 位 这 段 时 间 内 必须 维护 数据 的 完整 性 ,比如 使 用 数据 库 锁 (eg., SELECT 
FOR UPDATE). 还 请 注意 ,这 种 方法 和 物理 锁 都 有 相同 的 缺点 ,除了 它 在 构建 一 个 超时 机 制 时 比较 容易 管理 ,比如 记录 而 用 
户 去 吃 午 餐 了 , 则 超时 时 间 到 了 以 后 锁 会 被 自动 释放 . 





这 些 模式 并 不 一 定 适 用 于 批 处 理 ,但 他 们 可 以 被 用 在 并 发 批 处 理 和 在 线 处 理 的 情况 下 (例如 ,数据 库 不 支持 行 级 锁 ). 作 为 一 般 规 
则 ,乐观 锁 更 适合 于 在 线 应 用 ,而 翡 观 锁 更 适合 于 批 处 理应 用 .只 要 使 用 了 逻辑 锁 ,那么 所 有 访问 丈 辑 锁 保护 的 数据 的 程序 都 必须 
采用 同样 的 方案 . 


请 注意 ,这 两 种 解决 方案 都 只 锁定 (address locking) 单 条 记录 .但 很 多 情况 下 我 们 需要 锁定 一 组 相关 的 记录 .如 果 使 用 物理 锁 ,你 
必须 非常 小 心地 管理 这 些 以 避免 潜 在 的 死 锁 .如 果 使 用 逻辑 锁 , 通 常 最 好 的 解决 办 法 是 创建 一 个 逻辑 锁 管 理 器 ,使 管理 器 能 理解 
你 想 要 保护 的 逻辑 记录 分 组 (groups), 并 确保 连贯 和 没有 死 锁 (non-deadlocking). 这 种 逻辑 锁 管理 器 通常 使 用 其 私有 的 表 来 进行 
锁 管 理 、 争 用 报告 、 超 时 机 制 等 等 . 


3. 并 行 处 理 并 行 处 理 允 许多 个 批 处 理 运 行 (run, 名 词 ,大 意 为 运行 中 的 程序 )/ 任 务 (job) 同 时 并 行 地 运行 ,以 使 批 处 理 总 运行 时 间 降 
到 最 低 . 如 果 多 个 任务 不 使 用 同一 个 文件 、 数 据 表 、 索 引 空 间 时 这 并 不 算 什 么 问题 .如 果 确 实 存在 共享 和 竞争 ,那么 这 个 服务 就 
应 该 使 用 分 区 数据 来 实现 . 另 一 种 选择 是 使 用 控制 表 来 构建 一 个 架构 模块 以 维护 他 们 之 间 的 相互 依赖 关系 .控制 表 应 该 为 每 个 共 
享 资源 分 配 一 行 记录 ,不 管 这 些 资源 是 否 被 某 个 程序 所 使 用 .执行 并 行 作业 的 批 处 理 架 构 或 程序 随后 将 查询 这 个 控制 表 , 以 确定 
是 否 可 以 访问 所 需 的 资源 . 


如 果 解 决 了 数据 访问 的 问题 ,并 行 处 理 就 可 以 通过 使 用 额外 的 线程 来 并 行 实现 .在 传统 的 大 型 主机 环境 中 ,并 行 作业 类 上 通常 被 
用 来 确保 所 有 进程 都 有 充足 的 CPU 时 间 . 无 论 如 何 ,解决 方案 必须 足够 强劲 ,以 确保 所 有 正在 运行 的 进程 都 有 足够 的 时 间 片 . 


并 行 义理 的 其 他 关键 问题 还 包括 负载 平衡 以 及 一 般 系统 资源 的 可 用 性 (如 文件 、 数 据 库 缓 冲 池 等 ). 还 要 注意 控制 表 自 身 也 可 能 
很 容易 变 成 一 个 至 关 重要 的 资源 ( 即 可 能 发 生 严重 竞争 ?). 


4. 分 区 (Partitioning) 分 区 技术 人 允许 多 版 本 的 大 型 批 处 理 程序 并 发 地 (concurrently) 运 行 . 这 样 做 的 目的 是 减少 超 长 批 处 理 作 业 
过 程 所 需 的 时 间 . 可 以 成 功 分 区 的 过 程 主要 是 那些 可 以 拆 分 的 输入 文件 和 /或 主要 的 数据 库 表 被 分 区 以 允许 程序 使 用 不 同 的 数 
据 来 运行 . 





批 处 理 策略 11 





Spring Batch 参 考 文 档 中 文 版 


此 外 ,被 分 区 的 过 程 必须 设计 为 只 处 理 分 配给 他 的 数据 集 . 分 区 架构 与 数据 库 设 计 和 数据 库 分 区 策略 是 密切 相关 的 . 请 注意 , 数 
据 库 分 区 并 不 一 定 指数 据 库 需 要 在 物理 上 实现 分 区 ,尽管 在 大 多 数 情况 下 这 是 明智 的 .下 面 的 图 片 展示 了 分 区 的 方法 : 


Da [j alm oo M 


拆 分 处 理 分 区 处 理 合并 处 理 
(Split Process) (Partitioned Process) (Merge Process) 


a 本 


mn -~ 


E ee oe 


系统 架构 应 该 足够 灵活 ,以 允许 动态 配置 分 区 的 数量 . 自动 控制 和 用 户 配置 都 应 该 纳入 考虑 范围 . 自动 配置 可 以 根据 参数 来 决 
定 ,例如 输入 文件 大 小 和 /或 输入 记录 的 数量 . 


4.1 分 区 方法 下 面 列 出 了 一 些 可 能 的 分 区 方法 . 选择 哪 种 分 区 方法 要 根据 具体 情况 来 决定 . 
.使 用 固定 值 来 分 解 记录 集 


这 涉及 到 将 输入 的 记录 集合 分 解 成 偶数 个 部 分 (例如 10 份 ,这 样 每 部 分 是 整个 数据 集 的 十 分 之 一 ). 每 个 部 分 稍 后 由 一 个 批 处 理 / 
提取 程序 实例 来 处 理 . 


为 了 使 用 这 种 方法 ,需要 在 预 处 理 时 将 记录 集 拆 分 . 拆 分 的 结果 有 一 个 最 大 值 和 最 小 值 位 置 , 这 两 个 值 可 以 用 作 限 制 每 个 批 处 
理 /提取 程序 处 理 部 分 的 输入 . 


预 处 理 可 能 是 一 个 很 大 的 开销 ,因为 它 必 须 计 算 并 确定 的 每 部 分 数据 集 的 边界 . 
2. 根 据 关 键 列 (Key Column) 分 解 


这 涉及 到 将 输入 记录 按照 某 个 关键 列 来 分 解 ,比如 定位 码 (location code), 并 将 每 个 键 分 配给 一 个 批 处 理 实例 .为 了 达到 这 个 目 
标 ,也 可 以 使 用 列 值 . 


3. 根 据 分 区 表决 定 分 配给 哪 一 个 批 处 理 实例 (详情 见 下 文 )， 

4. 根 据 值 的 一 部 分 决定 分 配给 哪个 批 处 理 实例 的 值 (例如 值 0000-0999, 1000-1999 等 ) 

在 使 用 第 1 种 方法 时 , 新 值 的 添加 将 意味 着 需要 手动 重新 配置 批 处 理 / 提 取 程 序 ,以 确保 新 值 被 添加 到 某 个 特定 的 实例 . 

在 使 用 第 2 种 方法 时 ,将 确保 所 有 的 值 都 会 被 某 个 批 你 理 作 业 实 例 处 理 到 . 然而 ,一 个 实例 处 理 的 值 的 数量 依赖 于 列 值 的 分 布 ( 即 
可 能 存在 大 量 的 值 分 布 在 0000-0999 范 围 内 ,而 在 1000-1999 范 围 内 的 值 却 很 少 ). 如 果 使 用 这 种 方法 ,设计 时 应 该 考虑 到 数据 范 
围 的 切 分 . 


在 这 两 种 方法 中 ,并 不 能 将 指定 给 批 处 理 实例 的 记录 实现 最 佳 均匀 分 布 . 批 处 理 实例 的 数量 并 不 能 动态 配置 . 
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5. 根 据 视 图 来 分 解 


这 种 方法 基本 上 是 根据 键 列 来 分 解 ,但 不 同 的 是 在 数据 库 级 进行 分 解 . 它 涉及 到 将 记录 和 集 分 解 成 视图 .这 些 视图 将 被 批 处 理 程序 
的 各 个 实例 在 处 理 时 使 用 . 分 解 将 通过 数据 分 组 来 完成 . 


使 用 这 个 方法 时 , 批 处 理 的 每 个 实例 都 必须 为 其 配 证 一 个 特定 的 视图 (而 非 主 表 ). 当 然 , 对 于 新 添加 的 数据 ,这 个 新 的 数据 分 组 必 
须 被 包含 在 某 个 视图 中 .也 没有 自动 配置 功能 ,实例 数量 的 变化 将 导致 视图 需要 进行 相应 的 改变 . 


6. 附 加 的 处 理 指示 器 

这 涉及 到 输入 表 一 个 附加 的 新 列 , 它 充当 一 个 指示 器 . 在 预 处 理 阶段 ,所 有 指示 器 都 被 标志 为 未 处 理 . 在 批 处 理 程序 获取 记录 阶 
段 , 只 会 读 取 被 标记 为 未 处 理 的 记录 ,一 旦 他 们 被 读 取 (并 加 锁 ), 它 们 就 被 标记 为 正在 处 理 状态 . 当 记录 处 理 完 成 ,指示 器 将 被 更 新 
为 完成 或 错误 . 批 处 理 程序 的 多 个 实例 不 需要 改变 就 可 以 开始 ,因为 附加 列 确保 每 条 纪录 只 被 处 理 一 次 

使 用 该 选项 时 , 表 上 的 I/O 会 动态 地 增长 .在 批量 更 新 的 程序 中 ,这 种 影响 被 降低 了 ,因为 写 操作 是 必定 要 进行 的 . 

7. 将 表 提 取 到 平面 文件 

这 包括 将 表 中 的 数据 提取 到 一 个 文件 中 . 然后 可 以 将 这 个 文件 拆 分 成 多 个 部 分 ,作为 批 处 理 实例 的 输入 . 


使 用 这 个 选项 时 ,将 数据 提取 到 文件 中 ,并 将 文件 拆 分 的 额外 开销 ,有 可 能 抵消 多 分 区 处 理 (multi-partitioning) 的 效果 .可 以 通过 改 
变 文件 分 割 脚本 来 实现 动态 配置 . 


8. 使 用 哈 希 列 (Hashing Column) 

这 个 计划 需要 在 数据 库 表 中 增加 一 个 哈 希 列 (key/index) 来 检索 驱动 (driven 记 录 . 这 个 哈 希 列 籽 有 一 个 指示 器 来 确定 将 由 批 处 
理 程序 的 哪个 实例 处 理 某 个 特定 的 行 .例如 ,如 果 启 动 了 三 个 批 处 理 实例 ,那么 “A" 指 示 器 将 标记 某 行 由 实例 1 来 多 理 ,“B" 将 标记 着 
将 由 实例 2 来 处 理 ,以 此 类 推 . 


稍 后 用 于 检索 记录 的 过 程 (procedure, 程 序 ) 闻 有 一 个 额外 的 WHERE 子 句 来 选择 以 一 个 特定 指标 标记 的 所 有 行 . 这 个 表 的 insert 
需要 附加 的 标记 字段 ,默认 值 将 是 其 中 的 某 一 个 实例 (例如 “A”). 


一 个 简单 的 批 处 理 程序 将 被 用 来 更 新 不 同 实例 之 间 的 重新 分 配 负载 的 指标 . 当 添加 足够 多 的 新 行 时 ,这 个 批 处 理会 被 运行 (在 任 
何 时 间 , 除 了 在 批 处 理 窗 口中 ) 以 将 新 行 分 配给 其 他 实例 . 


批 处 理应 用 程序 的 其 他 实例 只 需要 像 上 面 这 样 的 批 处 理 程序 运行 着 以 重新 分 配 指标 ,以 决定 新 实例 的 数量 . 

4.2 数 据 库 和 应 用 程序 设计 原则 

如 果 一 个 支持 多 分 区 (multi-partitioned) 的 应 用 程序 架构 ,基于 数据 库 采 用 (ey column) 分 区 方法 拆 成 的 多 个 表 , 则 应 该 包 
含 一 个 中 心 分 区 仓库 来 存储 分 区 参数 .这 种 方式 提供 了 灵活 性 ,并 保证 了 可 维护 性 .这 个 中 心 仓库 通常 只 由 单个 表 组 成 ,叫做 分 区 
表 . 

存储 在 分 区 表 中 的 信息 应 该 是 是 静态 的 ,并 且 只 能 由 DBA 维 扩 . 每 个 多 分 区 程序 对 应 的 单个 分 区 有 一 行 记 录 , 组 成 这 个 表 . 这 个 表 
应 该 包含 这 些 列 : 程序 |D 编 号 ,分 区 编号 (分 区 的 逻辑 ID), 一 个 分 区 对 应 的 关键 列 (keycolumn) 的 最 小 值 ,分 区 对 应 的 关键 列 的 
最 大 值 . 


在 程序 启动 时 ,应 用 程序 架构 (Control Processing Tasklet, 控 制 处 理 微 线程 ) 应 该 将 程序 id 和 分 区 号 传递 给 该 程序 .这 些 变量 被 用 
于 读 取 分 区 表 , 来 确定 应 用 程序 应 该 处 理 的 数据 范围 (如 果 使 用 关键 列 的 话 ). 另 外 分 区 号 必须 在 整个 处 理 过 程 中 用 来 : 


eo 为 了 使 合并 程序 正常 工作 ,需要 将 分 区 号 添加 到 输出 文件 /数据 库 更 新 
e 向 框架 的 错误 处 理 程序 报告 正常 处 理 批 处 理 日 志和 执行 期 间 发 生 的 所 有 错误 


4.3 尽 可 能 杜绝 死 锁 


当 程 序 并 行 或 分 区 运行 时 ,会 导致 数据 库 资 源 的 争 用 ,还 可 能 会 发 生死 锁 (Deadlocks). 其 中 的 关键 是 数据 库 设计 团队 在 进行 数据 
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库 设 计时 必须 考虑 尽 可 能 消除 潜在 的 竞争 情况 


还 要 确保 设计 数据 库 表 的 索引 时 考虑 到 性 能 以 及 死 锁 预 防 . 


死 锁 或 热点 往往 发 生 在 管理 或 架构 表 上 ,如 日 志 表 、 控 制 表 , 锁 表 (lock tables). 这 些 影响 也 应 该 纳入 考虑 .为 了 确定 架构 可 能 的 


瓶颈 ,一 个 真实 的 压力 测试 是 至 关 重 要 的 . 


要 最 小 化 数据 冲突 的 影响 ,架构 应 该 提供 一 些 服务 ,如 附加 到 数据 库 或 遇 到 死 锁 时 的 等 待 - 重 试 (waitrand-retry) 间 隔 时 间 .这 意味 


着 要 有 一 个 内 置 的 机 制 来 处 理 数据 库 返 回 码 ,而 不 是 立即 引发 错误 义理 ,需要 等 待 一 个 预定 的 时 间 并 重 试 执行 数据 库 操作 . 


4.4 参 数 传递 和 校 验 


对 程序 开发 人 员 来 说 ,分 区 架构 应 该 相对 透明 .框架 以 分 区 模式 运行 时 应 该 执行 的 相关 任务 包括 : 


o 在 程序 启动 之 前 获取 分 区 参数 
o 在 程序 启动 之 前 验证 分 区 参数 
o 在 启动 时 将 参数 传递 给 应 用 程序 


验证 (validation) 要 包含 必要 的 检查 ,以 确保 : 


e 应 用 程序 已 经 足够 涵盖 整个 数据 的 分 区 
e 在 各 个 分 区 之 间 没 有 遗漏 断代 (gaps) 





如 果 数 据 库 是 分 区 的 ,可 能 需要 一 些 额 外 的 验证 来 保证 单个 分 区 不 会 跨越 数据 库 的 片区 . 


体系 架构 应 该 考虑 整合 分 区 (partitions). 包 括 以 下 关键 问题 : 


。 在 进入 下 一 个 任务 步骤 之 前 是 否 所 有 的 分 区 都 必须 完成 ? 
e 如 果 一 个 分 区 Job 中 止 了 要 怎么 处 理 ? 
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Spring Batch 使 用 示例 : 读 取 CSV 文 件 并 写 人 人 MySQL 数据 库 


原文 链接 : Reading and writing CVS files with Spring Batch and MySQL 
原文 作者 : Steven Haines - 技术 架构 渍 


编写 批 处 理 程 序 来 处 理 GB 级 别 数据 量 无 疑 是 种 海啸 般 难 以 面 对 的 任务 ,但 我 们 可 以 用 Spring Batch 将 其 拆 解 为 小 块 小 块 的 
人 Batch oe a 专门 aie eda 本 文 先 讲解 一 个 简单 的 作业 
, 然 起 研究 Spring Batch 模块 的 批 处 理 功能 (/ 性 
能 )， ee ania Fant fall SHEE Caskets) 最 后 肖 要 介 绍 Spring Batch 对 跳 过 记录 (skipping), 重 试 记录 
(retrying), 以 及 批 处 理 作 业 的 重启 (restarting ) 等 弹性 工具 。 











如 果 你 佛 在 Java 企 业 系统 中 用 批 处 理 来 处 理 过 成 千 上 万 的 数据 交换 , 那 你 就 知道 工作 负载 是 怎么 回 事 。 批 处 理 系 统 要 处 理 庞 
大 无 比 的 数据 量 ,处 理 单条 记录 失败 的 情况 ,还 要 管理 中 断 ,在 重启 动 后 不 要 再 去 处 理 那 此 已 经 执行 过 的 部 分 。 








对 于 没有 相关 经 验 的 初学 者 ,下 面 是 需要 批 处 理 的 一 些 场景 ,并 且 如 果 使 用 Spring Batch 很 可 能 会 节省 你 很 多 宝贵 的 时 间 : 


o 接收 的 文件 缺少 了 一 部 分 需要 的 信息 ,你 需要 读 取 并 解析 整个 文件 ,调用 某 个 服务 来 获得 缺少 的 那 部 分 信息 ,然后 宇 入 到 某 
个 输出 文件 , 供 E 

e 如 果 执 行 环境 中 发 生 了 一 个 错误 , 则 将 失败 信息 写 入 数据 库 。 有 专门 的 程序 每 隔 15 分 钟 来 通 历 一 次 失败 信息 ,如 果 标 记 为 
可 以 重 试 ， gaat 

e 在 工作 流 中 ,你 希望 其 他 系统 在 收 到 事件 消息 时 ,来 调用 某 个 特定 服务 。 如 果 其 他 系统 没有 调用 这 个 服务 ,那么 一 段 时 间 后 
需要 自动 清理 过 期 数据 ,以 避免 影响 到 正常 的 业务 流程 。 

e 每 天 收 到 员工 信息 更 新 的 文件 ,你 需要 为 新 员工 建立 相关 档案 和 账号 (artifacts)。 

e 有 些 定制 订单 的 服务 。 你 需要 在 每 天 晚上 执行 批 处 理 程 序 来 生成 清单 文件 ,并 将 它们 发 送 到 相应 的 供应 商 手 上 。 


作业 与 分 块 : Spring Batch 范例 


Spring Batch 有 很 多 组 成 部 分 ,我 们 先 来 看 批量 作业 中 的 核心 处 理 。 可 以 将 一 个 作业 分 成 下 面 3 个 不 同 的 步骤 : 


1. 读 取 数据 
2.， 对 数据 进行 各 种 处 理 
3. 对 数据 进行 写 操 作 


例如 ,我 们 可 以 打开 一 个 CSV 格 式 的 数据 文件 ,对 文件 中 的 数据 执行 某 些 处 理 , 然 后 将 数据 写 入 数据 库 。 在 Spring Batch#, 您 
要 配置 一 个 读 取 程序 reader 来 读 取 文件 中 的 数据 (每 次 一 行 ), 然后 并 将 每 一 行 数据 传递 给 processor 进行 处 理 , 处 理 器 将 a 
将 结果 收集 并 分 组 为 " 块 Chunks”, 并 把 这 些 记录 发 送 给 writer ,在 这 里 是 插入 到 数据 库 中 。 可 以 参考 图 1 所 示 的 周期 。 


Reider Ea 数据 库 


图 1 Spring Batch 批 处 理 的 基本 逻辑 





Spring Batch 实 现 了 常见 输入 源 的 readers, 极 大 地 简化 了 批 处 理 过 程 .包括 CSV 文 件 , XML 文件 、 数 据 库 、 文 件 中 的 JSON 记 
EZE JMS; 同样 也 实现 了 对 应 的 writers, 如 有 需要 ,创建 自 定 义 的 readers and writers 也 是 相当 简单 的 。 
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首先 ,让 我 们 一 起 配置 一 个 file reader 来 读 取 CSV 文 件 ,将 其 内 容 映 射 到 一 个 对 象 中 ,并 将 生成 的 对 象 插入 数据 库 中 。 


下 载 本 教程 的 源 代码 : SpringBatch-CVS 演 示 代 码 


读 取 并 处理 CVS 文 件 


Spring Batch 内 置 的 reader, org.springframework.batch.item.file.FlatFileltemReader 将 文件 解析 为 许多 单独 的 行 。 CH 
要 一 个 纯 文本 文件 的 引用 ,文件 开头 要 忽略 的 行 数 (通常 是 头 信息 ), 以 及 一 个 将 单行 转换 为 一 个 对 象 的 line mapper. 行 映射 器 需 
要 一 个 分 割 字符 串 的 分 词 器 ,用 来 将 一 行 划分 为 各 个 组 成 字段 , 以 及 一 个 field set mapper, 根 据 字段 值 构 建 一 个 对 象 。 
FlatFileltemReader 的 配置 如 下 所 示 : 


清单 1 一 个 Spring Batch 配置 文件 


<bean id="productReader" class="org.springframework.batch.item.file.FlatFileItemReader" scope="step"> 


<!-- <property name="resource" value="file:./sample.csv" /> --> 
<property name="resource" value="file:#{jobParameters['inputFile']}" /> 


<property name="linesToSkip" value="1" /> 


<property name="lineMapper"> 
<bean class="org.springframework.batch.item.file.mapping.DefaultLineMapper"> 


<property name="lineTokenizer"> 
<bean class="org.springframework.batch.item.file.transform.DelimitedLineTokenizer'"> 
<property name="names" value="id, name, description, quantity" /> 
</bean> 
</property> 


<property name="fieldSetMapper"> 
<bean class="com.geekcap. javaworld.springbatchexample.simple.reader.ProductFieldSetMapper" /> 
</property> 
</bean> 
</property> 
</bean> 


让 我 们 来 看 看 这 些 组 件 。 首先 ,图 2 显示 了 它们 之 间 的 关系 : 
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FlatFileltemReader 


Lines To Skip 


LineMapper 


输入 文件 






跳 过 开头 的 一 些 行 









将 每 行 映射 为 一 个 对 象 


根据 某 种 分 隔 符 来 拆 分 


LineTokenizer 


FieldSetMapper | 从 拆 分 后 的 字段 中 构建 一 个 对 象 


图 2 FlatFileltemReader 的 组 件 


Resources: resource 属性 指定 了 要 读 取 的 文件 。 注释 掉 的 resource 使 用 了 文件 的 相对 路 径 , 也 就 是 批 处 理 作业 工作 目录 下 
的 sample.csv 。 作业 参数 InputFile 就 更 可 爱 了 : job parameters 人 允许 在 运行 时 动态 指定 相关 参数 。 在 使 用 import 文件 的 情 
况 下 ,在 运行 时 才 决 定 使 用 哪个 参数 比 起 在 编译 时 就 固定 要 灵活 好 用 得 多 。 (如 果 要 一 通 又 一 通 , 五 六 七 八 通 导 入 同一 个 文件 时 
又 会 相当 的 无 聊 了 1!) 


Lines to skip: linesToSkip 属性 告诉 file reader 有 多 少 标题 行 需要 跳 过 。 CSV 文 件 经 常 包含 标 题 信息 ,如 列 名 称 ,在 文件 的 第 
一 行 ,所 以 在 本 例 中 ,我 们 让 reader 跳 过 文件 的 第 一 行 。 


Line mapper: lineMapper 负责 将 每 行 记录 转换 成 一 个 对 象 。 需要 依赖 两 个 组 件 : 


e LineTokenizer 指定 了 如 何 将 一 行 拆 分 为 多 个 字段 。 本 例 中 我 们 列 出 了 CSV 文 件 中 的 列 名 。 





e fieldSetMapper 从 字段 值 构造 一 个 对 象 。 在 我 们 的 例子 中 构建 了 一 个 Product 对 象 ,属性 包括 id, name, description, 以 及 
quantity 字段 。 


请 注意 ,虽然 Spring Batch 为 我 们 提供 的 基础 框架 ,但 我 们 仍 需要 设置 字段 映射 的 逮 辑 。 清单 2 显示 了 Product 对 象 的 源码 ,也 就 
是 我 们 准备 构建 的 对 象 。 


清单 2 Product.java 


package com.geekcap.javaworld.springbatchexample.simple.model; 


fae 
* 代表 产品 的 简单 值 对 象 (P0J0) 
*/ 
public class Product 
{ 
private int id; 
private String name; 
private String description; 
private int quantity; 


public Product() { 
} 
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public Product(int id, String name, String description, int quantity) { 
this.id = id; 

this.name = name; 

this.description = description; 

this.quantity = quantity; 

} 


public int getId() { 
return id; 


} 


public void setId(int id) { 
this.id = id; 
} 


public String getName() { 
return name; 


public void setName(String name) { 
this.name = name; 


} 


public String getDescription() { 
return description; 


} 


public void setDescription(String description) { 
this.description = description; 


} 


public int getQuantity() { 
return quantity; 


} 


public void setQuantity(int quantity) { 
this.quantity = quantity; 
} 


Product 类 是 一 个 简单 的 POJO, 包 含 4 个 字段 。 清单 3 显示 了 ProductFieldSetMapper 类 的 源 代码 。 


清单 3 ProductFieldSetMapper.java 


package com.geekcap.javaworld.springbatchexample.simple. reader; 


import com.geekcap.javaworld.springbatchexample.simple.model.Product; 
import org.springframework.batch.item.file.mapping.FieldSetMapper ; 
import org.springframework.batch.item.file.transform.FieldSet ; 

import org.springframework.validation.BindException,; 


Hewes 
* 根据 CSV 文件 中 的 字段 集合 构建 
< 
public class ProductFieldSetMapper implements FieldSetMapper<Product> 
it 





itt 


Product 对 象 


@Override 

public Product mapFieldSet(FieldSet fieldSet) throws BindException { 
Product product = new Product(); 
product.setId( fieldSet.readInt( "id" ) ); 
product.setName( fieldSet.readString( "name" ) ); 
product.setDescription( fieldSet.readString( "description" ) ); 
product.setQuantity( fieldSet.readInt( "quantity" ) ); 
return product; 


ProductFieldSetMapper 类 继承 自 fieldSetMapper , 它 只 定义 了 一 个 方法 : mapFieldSet(). mapper 映 射 器 将 每 一 行 解析 成 一 个 
FieldSet (包含 命名 好 的 字段 ), 然后 传递 给 mapFieldSet() 方法 。 该 方法 负责 组 建 一 个 对 象 来 表示 CSV 文 件 中 的 一 行 。 在 本 


例 中 ,我 们 通过 FieldSet 的 各 种 read 方法 构建 了 一 个 Product 实 例 . 
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写 入 数据 库 


在 读 取 文件 之 后 ,我 们 得 到 了 一 组 product ,下 一 步 就 是 将 其 写 入 数据 库 。 技术 上 人 允许 我 们 将 这 些 数据 连接 到 一 个 processing 
step, 对 数据 做 一 些 处 理 之 类 的 ,为 简单 起 见 ,我 们 只 将 数据 写 到 数据 库 中 。 清单 4 显示 了 ProductltemWriter 类 的 源 代码 。 


清单 4 productItemwriter.java 


package com.geekcap.javaworld.springbatchexample.simple.writer; 


import com.geekcap.javaworld.springbatchexample.simple.model.Product; 
import org.springframework.batch.item.Itemwriter; 

import org.springframework.beans.factory.annotation.Autowired; 

import org.springframework.jdbc.core.JdbcTemplate; 

import org.springframework.jdbc.core.RowMapper; 


import java.sql.ResultSet; 
import java.sql.SQLException; 
import java.util.List; 


fue 
* Writes products to a database 





public class ProductItemwriter implements Itemwriter<Product> 


{ 


private static final String GET_PRODUCT = "select * from PRODUCT where id = ?"; 
private static final String INSERT_PRODUCT = "insert into PRODUCT (id,name, description, quantity) values (?,?,?,?)"; 
private static final String UPDATE_PRODUCT = "update PRODUCT set name = ?, description = ?,quantity = ? where id = 


@Autowired 
private JdbcTemplate jdbcTemplate; 


@Override 
public void write(List<? extends Product> products) throws Exception 
{ 
for( Product product : products ) 
{ 
List<Product> productList = jdbcTemplate.query(GET_PRODUCT, new Object[] {product.getId()}, new RowMapper<F 
@Override 
public Product mapRow( ResultSet resultSet, int rowNum ) throws SQLException { 
Product p = new Product(); 
p.setId( resultSet.getInt( 1 ) ); 
p.setName( resultSet.getString( 2 ) ); 
p.setDescription( resultSet.getString( 3 ) ); 
p.setQuantity( resultSet.getInt( 4 ) ); 
return p; 
} 
4); 
if( productList.size() > 0 ) 
{ 
jdbcTemplate.update( UPDATE_PRODUCT, product.getName(), product.getDescription(), product.getQuantity(} 
} 
else 
{ 
jdbcTemplate.update( INSERT_PRODUCT, product.getId(), product.getName(), product.getDescription(), proc 
} 
J 





ProductltemWriter 类 继承 (extends, 其 实 继承 和 实现 implements 没有 本 质 区 别 .) ltemWriter 并 实现 了 其 唯一 的 方法 : 
write() . write() 方法 接受 一 个 泛 型 继承 product 的 list . Spring Batch 使 用 "chunking"” 策 略 实现 其 writers , 意思 就 是 读 
取 时 是 一 次 执行 一 个 item, 而 写 入 时 是 将 一 组 数据 一 块 写 。 如 下 面 的 job 配置 所 示 , 您 可 以 (通过 commit -interval ) 完 全 控制 每 
次 想 要 一 起 写 的 item 的 数量 。 在 上 面 的 例子 中 ，write() 方法 做 了 这 些 事 : 


1. 它 执行 一 个 SQL sELECT 语句 来 根据 指定 的 id 检索 Product. 
2. 如 果 sELECT 返回 一 条 记录 , 则 write) 中 执行 一 个 update 使 用 新 value 来 更 新 数据 库 中 的 记录 . 
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3. 如 果 sELEcT 没有 返回 记录 , 则 write) 执行 insert 将 产品 信息 添加 到 数据 库 中 . 


ProductltemWriter 类 使 用 Spring 的 sdbctemplate 类 , 它 在 applicationcontext.xml 文件 中 定义 并 通过 自动 装配 机 制 注 入 到 
ProductitemWriter 类 。 如 果 你 没有 用 过 Jdbctemplate 类 ,可 以 把 它 理解 为 是 JDBC 接口 的 一 个 封装 . 与 数据 库 进 行 交 互 的 
模板 设计 模式 的 实现 . 代码 应 该 很 容易 读 懂 , 如 果 你 想 了 解 更 多 信息 , 请 查看 SpringJdbcTemplate 的 javadoc. 


5 application context 文件 组 装 


到 目前 为 止 我 们 已 经 建立 了 一 个 product 领域 对 象 , 一 个 ProductFieldsetMapper 类 , 用 来 将 CSV 文 件 中 的 每 一 行 转 换 为 一 个 
对 象 , 以 及 一 个 productitemwriter 类 , 来 将 对 象 写 和 数据库。 下 面 我 们 需要 配置 Spring Batch 来 将 这 些 未 西 组 装 在 一 起 。 
清单 5 显示 了 applicationcontext.xml 文件 的 源 代码 , 这 里 面 定义 了 我 们 需要 的 bean。 


33% 5. applicationcontext .xml 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema- instance" 
xmlns:context="http://www.springframework.org/schema/context" 
xmlns:batch="http://www.springframework.org/schema/batch" 
xmLlns:jdbc="http://www. springframework.org/schema/jdbc" 
xsi:schemaLocation="http://www.springframework.org/schema/beans http://www. springframework.org/schema/beans/spri 
http://www. springframework.org/schema/context http://www.springframework.org/schema/context/spring-cont 
http: //www.springframework.org/schema/batch http://www.springframework.org/schema/batch/spring-batch. xs 
http://www. springframework.org/schema/jdbc http://www. springframework.org/schema/jdbc/spring-jdbc.xsd"> 


<context:annotation-config /> 


<!-- Component scan to find all Spring components --> 
<context:component-scan base-package="com.geekcap. javaworld.springbatchexample" /> 


<!-- Data source - connect to a MySQL instance running on the local machine --> 
<bean id="dataSource" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close"> 
<property name="driverClassName" value="com.mysql.jdbc.Driver"/> 
<property name="url" value="jdbc:mysql://localhost/spring_batch_example"/> 
<property name="username" value="sbe"/> 
<property name="password" value="sbe"/> 
</bean> 


<bean id="transactionManager" class="org.springframework.jdbc.datasource.DataSourceTransactionManager'"> 
<property name="dataSource" ref="dataSource" /> 
</bean> 


<bean id="jdbcTemplate" class="org.springframework.jdbc.core.JdbcTemplate"> 
<property name="dataSource" ref="dataSource" /> 
</bean> 


<!-- Create job-meta tables automatically --> 
<jdbc:initialize-database data-source="dataSource"> 
<jdbc:script location="org/springframework/batch/core/schema-drop-mysql.sql" /> 
<jdbc:script location="org/springframework/batch/core/schema-mysql.sql" /> 
</jdbc:initialize-database> 


<!-- Job Repository: used to persist the state of the batch job --> 

<bean id="jobRepository" class="org.springframework.batch.core.repository.support .MapJobRepositoryFactoryBean"> 
<property name="transactionManager" ref="transactionManager" /> 

</bean> 


<!-- Job Launcher: creates the job and the job state before launching it --> 

<bean id="jobLauncher" class="org.springframework.batch.core.launch. support .SimpleJobLauncher"> 
<property name="jobRepository" ref="jobRepository" /> 

</bean> 


<!-- Reader bean for our simple CSV example --> 
<bean id="productReader" class="org.springframework.batch.item.file.FlatFileItemReader" scope="Step"> 
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<!-- <property name="resource" value="file:./sample.csv" /> --> 
<property name="resource" value="file:#{jobParameters['inputFile']}" /> 


<!-- Skip the first line of the file because this is the header that defines the fields --> 
<property name="linesToSkip" value="1" /> 


<!-- Defines how we map lines to objects --> 
<property name="lineMapper"> 
<bean class="org.springframework.batch.item.file.mapping.DefaultLineMapper"> 


<!-- The lineTokenizer divides individual lines up into units of work --> 
<property name="lineTokenizer"> 
<bean class="org.springframework.batch.item.file.transform.DelimitedLineTokenizer"> 


<!-- Names of the CSV columns --> 
<property name="names" value="id,name, description, quantity" /> 
</bean> 
</property> 
<!-- The fieldSetMapper maps a line in the file to a Product object --> 


<property name="fieldSetMapper"> 
<bean class="com.geekcap.javaworld.springbatchexample.simple.reader.ProductFieldSetMapper" /> 
</property> 
</bean> 
</property> 
</bean> 


<bean id="productWriter" class="com.geekcap.javaworld.springbatchexample.simple.writer.ProductItemwriter" /> 


</beans> 


大 | 


注意 ,将 job 配置 从 application/environment 中 分 离 出 来 使 我 们 能 够 将 job 从 一 个 环境 移 到 另 一 个 环境 而 不 需要 重新 定义 一 个 
job。 清单 5 中 定义 了 下 面 这 些 bean: 





e dataSource : 示例 程序 连接 到 MySQL, 所 以 数据 库 连 接 池 配 置 为 连接 到 一 个 名 为 spring_batch_example 的 MySQL 数 据 
库 ， 地 址 为 本 机 (localhostb), 具 体 设 置 参见 下 文 。 


e transactionmanager : Spring 事务 管理 器 , 用 于 管理 MySQL 事 务 。 


e jdbctemplate : 该 类 提供 了 与 JDBC connections 交 互 的 模板 设计 模式 实现 。 这 是 一 个 Helper 类 ,用 来 简化 我 们 使 用 数据 
库 。 在 实际 的 项 目 中 一 般 会 使 用 某 种 ORM 工 具 , 例如 Hibernate, 上 面 再 包装 一 个 服务 层 , 但 本 示例 中 我 想 让 它 尽 可 能 地 简 
单 。 





e jobrepository : MapJobRepositoryFactoryBean 是 Spring Batch 管理 job KAMA. 在 这 里 它 使 用 前 面 配置 的 
jdbctemplate 将 job 信息 存储 到 MySQL 数 据 库 中 。 


e jobLauncher : 这 是 启动 和 管理 Spring Batch 作业 工作 流 的 组 件 ,。 





e productReader : 在 job 中 这 个 bean 负责 执行 读 操作 。 
e productWriter : 这 个 bean 负责 将 Product 实例 写 入 数据 库 。 


请 注意 ，jdbc:initialize-database 节点 包含 了 两 个 用 来 创建 所 需 数据 库 表 的 Spring Batch 脚本 。 这 些 脚本 我 文件 位 于 
Spring Batch core 的 JAR 文 件 中 (由 Maven 自 动 引 入 了 ) 对 应 的 路 径 下 。 JAR 文 件 中 包含 了 许多 数据 库 对 应 的 脚本 ， 比如 
MySQL, Oracle, SQL Server, 等 等 。 这 些 脚本 负责 在 运行 job 时 创建 需要 的 schema。 在 本 示例 中 , 它 删 除 (drop) 表 ,然后 再 

创建 (create) 表 , 你 可 以 试 着 运行 一 下 。 如 果 在 生产 环境 中 , 你 应 该 将 SQL 文件 提取 出 来 ,然后 手动 执行 音 竟 生产 环境 一 
般 创 建 了 就 不 会 删除 。 





Spring Batch 中 的 Lazy scope 


你 可 能 已 经 注意 到 productReader 这 个 bean 指定 了 为 一 个 值 为 " step "的 scope 属性 。 step scope 是 Spring 框架 的 作用 域 
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之 一 , 主要 用 于 Spring Batch 它 本 质 上 是 一 个 lazy scope, 告诉 Spring 在 首次 访问 时 才 创 建 bean。 在 本 例 中 , 我 们 需要 使 用 
step scope 是 因为 使 用 了 job 参数 的 " inputFile " 值 , 这 个 值 在 应 用 程序 启动 时 是 不 存在 的 。 使 用 step scope 使 Spring 
Batch 在 创建 这 个 bean 时 能 够 找到 " InputFile" 值 。 


Ja ay 
正义 job 
清单 6 显示 了 file-import-job.xml 文件 , 该 文件 定义 了 实际 的 job 作业。 


清单 6 file-import-job.xml 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xmlns:context="http://www.springframework.org/schema/context" 
xmlns:batch="http://www.springframework.org/schema/batch" 
xsi:schemaLocation="http://www.springframework.org/schema/beans http://www. springframework.org/schema/beans/spri 
http://www. springframework.org/schema/context http://www. springframework.org/schema/context/spring-cont 
http: //www.springframework.org/schema/batch http://www.springframework.org/schema/batch/spring-batch. xs 


<!-- Import our beans --> 
<import resource="Cclasspath:/applicationContext.xml" /> 


<job id="simpleFileImportJob" xmlns="http://www.springframework.org/schema/batch"> 
<step id="importFileStep"> 
<tasklet> 
<chunk reader="productReader" writer="productWriter" commit-interval="5" /> 
</tasklet> 
</step> 
</job> 


</beans> 
a] — } ae 


请 注意 , 一 个 job 可 以 包含 0 到 多 个 step; 一 个 step 可 以 包含 0 到 多 个 tasklet; 一 个 tasklet 可 以 包含 0 到 多 个 chunk, 如 图 
3 所 示 。 





图 3 Jobs, steps, tasklets 和 chunks 的 关系 


非 官方 示例 (CVS_MySQL) 22 


Spring Batch 参 考 文 档 中 文 版 





在 我 们 的 示例 中 , simpleFilelmportJob 包含 一 个 名 为 importFilestep 的 step。 importFileStep 包含 一 个 未 命名 的 tasklet, 
tasklet 又 包含 有 一 个 chunk。 chunk 引用 了 productReader 和 productwriter 。 同时 指定 了 一 个 属性 commit-interval, 值 
为 5 . 意思 是 每 5 条 记录 就 调用 一 次 writer。 该 step 利用 productReader 一 次 读 取 5 条 产品 记录 ， 然 后 将 这 些 记 录 传 递 给 
productwriter SH, 这 一 块 一 直 重 复 执行 , 直到 所 有 数据 都 处 理 完成 为 止 。 


清单 6 还 还 引入 了 applicationcontext.xml 文件 ,该 文件 包含 所 有 需要 的 bean。 而 Jobs 通常 在 单独 的 文件 中 定义 ; 这 是 因为 
job 加 载 器 在 执行 时 需要 一 个 job 文件 以 及 对 应 的 job name, 虽然 可 以 讲 所 有 的 东西 抒 进 一 个 文件 中 ,但 很 快 变 得 腔 肿 难以 维 
护 ,所 以 一 般 约 定 , 一 个 job 定义 在 一 个 文件 中 , 同时 引入 所 有 依赖 文件 。 





最 后 ,你 可 能 会 注意 到 ,job 节点 上 定义 了 XML 名 称 空 间 ( xmlns ) 。 这 样 做 是 为 了 不 想 在 每 个 节点 上 再 加 上 前 级 " batch: "。 
在 节点 级 别 定义 的 namespace 会 在 该 节点 和 所 有 子 节点 上 生效 。 


构建 并 运行 项 目 





清单 7 显示 了 构建 此 示例 项 目的 POM 文 件 的 内 容 


清单 7 pom.xml 


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 
<modelVersion>4.0.0</modelVersion> 


<groupId>com.geekcap. javaworld</groupId> 
<artifactId>spring-batch-example</artifactId> 
<version>1.0-SNAPSHOT</version> 
<packaging>jar</packaging> 
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<name>spring-batch-example</name> 
<url>http://maven. apache. org</url> 


<properties> 
<project.build.sourceEncoding>UTF-8</project .build.sourceEncoding> 
<spring.version>3.2.1.RELEASE</spring.version> 
<spring.batch.version>2.2.1.RELEASE</spring.batch.version> 
<java.version>1.6</java.version> 

</properties> 


<dependencies> 

<!-- Spring Dependencies --> 

<dependency> 
<groupId>org.springframework</groupId> 
<artifactId>spring-context</artifactId> 
<version>${spring.version}</version> 

</dependency> 

<dependency> 
<groupId>org.springframework</groupId> 
<artifactId>spring-core</artifactId> 
<version>${spring.version}</version> 

</dependency> 

<dependency> 
<groupId>org.springframework</groupId> 
<artifactId>spring-beans</artifactId> 
<version>${spring.version}</version> 

</dependency> 

<dependency> 
<groupId>org.springframework</grouplId> 
<artifactId>spring-jdbc</artifactId> 
<version>${spring.version}</version> 

</dependency> 

<dependency> 
<groupId>org.springframework.batch</groupId> 
<artifactId>spring-batch-core</artifactId> 
<version>${spring.batch.version}</version> 

</dependency> 

<dependency> 
<groupId>org.springframework.batch</groupId> 
<artifactId>spring-batch-infrastructure</artifactId> 
<version>${spring.batch.version}</version> 

</dependency> 


<!-- Apache DBCP--> 

<dependency> 
<groupId>commons -dbcp</groupId> 
<artifactId>commons-dbcp</artifactId> 
<version>1.4</version> 

</dependency> 


<!-- MySQL --> 

<dependency> 
<groupId>mysql</groupId> 
<artifactId>mysql-connector -java</artifactId> 
<version>5.1.27</version> 

</dependency> 


<!-- Testing --> 

<dependency> 
<groupId>junit</grouplId> 
<artifactId>junit</artifactId> 
<version>4.11</version> 
<scope>test</scope> 

</dependency> 

</dependencies> 


<build> 
<plugins> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-compiler-plugin</artifactId> 
<configuration> 
<source>${java.version}</source> 
<target>${java.version}</target> 
</configuration> 
</plugin> 
<plugin> 
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<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-jar-plugin</artifactId> 
<configuration> 
<archive> 
<manifest> 
<addClasspath>true</addClasspath> 
<classpathPrefix>lib/</classpathPrefix> 
</manifest> 
</archive> 
</configuration> 
</plugin> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-dependency-plugin</artifactId> 


<executions> 
<execution> 
<id>copy</id> 
<phase>install</phase> 
<goals> 
<goal>copy -dependencies</goal> 
</goals> 
<configuration> 
<outputDirectory>${project.build.directory}/lib</outputDirectory> 
</configuration> 
</execution> 
</executions> 
</plugin> 
</plugins> 
<finalName>spring-batch-example</finalName> 
</build> 
</project> 


上 面 的 POM 文 件 先 引 入 了 Spring context, core, beans, 和 JDBC 框架 /类 库 ， 然后 引入 Spring Batch core LAR 
infrastructure 依赖 ( 包 )。 这 些 依赖 项 就 是 Spring 和 Spring Batch 的 基础 。 当然 也 引入 了 Apache DBCP, 使 我 们 能 构建 数据 
库 连 接 池 和 MySQL 了 驱动 。 plug-in 部 分 指定 了 使 用 Java 1.6 进 行 编译 ,并 在 build 时 将 所 有 依赖 项 库 复制 到 lib 目录 下 。 我 们 
可 以 使 用 下 面 的 命令 来 构建 项 目 : 


mvn clean install 


Spring Batch 连 接 到 一 个 数据 库 


现在 我 们 的 job 已 经 设置 好 了 , 如 果 想 在 生产 环境 中 运行 


行 还 需要 将 Spring Batch 连 接 到 数据 库 。 Spring Batch 需要 一 些 表 , 用 
来 记录 job 的 当前 状态 和 已 经 处 理 过 的 record WR, iH 


样 ,如 果 某 个 job 确实 需要 重启 , 则 可 以 从 上 次 断 开 的 地 方 继续 执行 。 


Spring Batch 可 以 连接 到 任何 你 喜欢 的 数据 库 , 但 为 了 演示 方便 , 我 们 在 本 示例 中 使 用 MySQL。 请 下 载 MySQL 并 安装 后 再 
执行 下 面 的 脚本 。 社区 版 是 免费 的 ,而 且 能 满足 大 多 数 人 的 需要 。 请 根据 你 的 操作 系统 选择 合适 的 版 本 下 载 安装 . 然后 可 能 需 
要 手动 启动 MySQL(Windows 一 般 自 动 启动 )。 


安装 好 MySQL 后 还 需要 创建 数据 库 以 及 相应 的 用 户 (并 赋予 权限 )。 启动 命令 行 并 进入 MySQL 的 bin 目 录 é% mysql 客户 端 ， 
连接 服务 器 后 执行 以 下 SQL 命令 (请 注意 ,在 Linux 下 可 能 需要 使 用 root 用 户 执行 mysql 客户 端 程序 , 或 者 使 用 sudo 进行 权 
限 切换 . 


create database spring_batch_example; 
create user 'sbe'@'localhost' identified by 'sbe'; 
grant all on spring_batch_example.* to 'sbe'@'localhost'; 


第 一 行 SQL 创建 了 一 个 名 为 spring_batch_example 的 数据 库 (database), 这 个 库 用 来 保存 我 们 的 products 信息 。 第 二 行 创建 
了 一 个 名 为 sbe 的 用 户 Spring Batch Example 的 缩写 ,你 也 可 以 使 用 其 他 名 字 , 只 要 配置 得 一 致 就 行 ), 密码 也 指定 为 sbe 。 
最 后 一 行将 spring_batch_example 数据 库 上 的 所 有 权限 赋予 sbe AP. 
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接 下 来 ,使 用 下 面 的 命令 创建 PRODUCT K: 


CREATE TABLE PRODUCT ( 
ID INT NOT NULL, 
NAME VARCHAR(128) NOT NULL, 
DESCRIPTION VARCHAR(128), 
QUANTITY INT, 
PRIMARY KEY(ID) 

); 


接着 ,我 们 在 项 目的 target 目录 下 创建 一 个 文件 sample.csv, FIRF—HAHE (ARIES DBR): 


id, name, description, quantity 
1,Product One, This is product 1, 10 
2,Product Two,This is product 2, 20 
3,Product Three,This is product 3, 30 
4,Product Four,This is product 4, 20 
5,Product Five,This is product 5, 10 
6,Product Six,This is product 6, 50 
7,Product Seven,This is product 7, 80 
8,Product Eight,This is product 8, 90 


可 以 使 用 下 面 的 命令 启动 batch job: 


java -cp spring-batch-example.jar:./lib/* org.springframework.batch.core.launch.support.CommandLineJobRunner classpath: 





CommandLineJobRunner 是 Spring Batch 框架 中 执行 job 的 类 。 它 需 要 定义 了 job 的 XML 文件 的 名 称 , 需要 执行 的 job 的 名 称 , 以 
及 其 他 可 选 的 一 些 自 定 义 参 数 。 因为 file-import-job.xml 在 JAR 文 件 的 内 部 , 所 以 可 以 使 用 这 种 方式 访问 : 
classpath:/jobs/file-import-job.xml 。 我 们 给 需要 执行 的 Job 指定 了 一 个 名 称 simpleFileImportJob 并 传 入 一 个 参数 


InputFile , 444 sample.csv o 


如 果 执 行 不 出 错 , 输出 结果 类 似 于 下 面 这 样 : 


Nov 12, 2013 4:09:17 PM org.springframework.context.support.AbstractApplicationContext prepareRefresh 

INFO: Refreshing org.springframework.context.support.ClassPathXmlApplicationContext@6b4da8f4: startup date [Tue Nov 12 
Nov 12, 2013 4:09:17 PM org.springframework.beans.factory.xml.XmlBeanDefinitionReader loadBeanDefinitions 

INFO: Loading XML bean definitions from class path resource [jobs/file-import-job.xml] 

Nov 12, 2013 4:09:18 PM org.springframework.beans.factory.xml.XmlBeanDefinitionReader loadBeanDefinitions 

INFO: Loading XML bean definitions from class path resource [applicationContext. xml] 

Nov 12, 2013 4:09:19 PM org.springframework.beans.factory.support.DefaultListableBeanFactory registerBeanDefinition 
INFO: Overriding bean definition for bean 'simpleFileImportJob': replacing [Generic bean: class [org.springframework. be 
Nov 12, 2013 4:09:19 PM org.springframework.beans.factory.support.DefaultListableBeanFactory registerBeanDefinition 
INFO: Overriding bean definition for bean 'productReader': replacing [Generic bean: class [org.springframework.batch.it 
Nov 12, 2013 4:09:19 PM org.springframework.beans.factory.support.DefaultListableBeanFactory preInstantiateSingletons 
INFO: Pre-instantiating singletons in org.springframework.beans.factory.support .DefaultListableBeanFactory@6aba4211: de 
Nov 12, 2013 4:09:19 PM org.springframework.batch.core.launch.support.SimpleJobLauncher afterPropertiesSet 

INFO: No TaskExecutor has been set, defaulting to synchronous executor. 

Nov 12, 2013 4:09:22 PM org.springframework.batch.core.launch.support.SimpleJobLauncher$1 run 

INFO: Job: [FlowJob: [name=simpleFileImportJob]] launched with the following parameters: [{inputFile=sample.csv}] 

Nov 12, 2013 4:09:22 PM org.springframework.batch.core.job.SimpleStepHandler handleStep 

INFO: Executing step: [importFileStep] 

Nov 12, 2013 4:09:22 PM org.springframework.batch.core.launch.support.SimpleJobLauncher$1 run 

INFO: Job: [FlowJob: [name=simpleFileImportJob]] completed with the following parameters: [{inputFile=sample.csv}] and 
Nov 12, 2013 4:09:22 PM org.springframework.context.support.AbstractApplicationContext doClose 

INFO: Closing org.springframework.context.support.ClassPathXmlApplicationContext@6b4da8f4: startup date [Tue Nov 12 16: 
Nov 12, 2013 4:09:22 PM org.springframework.beans.factory.support.DefaultSingletonBeanRegistry destroySingletons 

INFO: Destroying singletons in org.springframework.beans.factory.support.DefaultListableBeanFactory@6aba4211: defining 


HE 


然后 到 数据 库 中 检测 一 下 PRODUCT 表 中 是 否 正确 保存 了 我 们 在 csv 中 指定 的 那 几 条 记录 (示例 是 8 条 )。 
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对 Spring Batch 执行 批量 处 理 


到 这 一 步 , 我 们 的 示例 程序 已 经 从 CSV 文 件 中 读 取 数据 ,并 将 信息 导入 到 了 数据 库 中 。 虽然 可 以 运行 起 来 , 但 有 时 候 想 要 对 数 
据 进 行 转换 或 着 过 滤 掉 某 些 数据 ,然后 再 插入 到 数据 库 中 。 在 本 节 中 ,我 们 将 创建 一 个 简单 的 processor , 并 不 覆盖 原 有 的 
product 数量 ,而 是 先 从 数据 库 中 查询 现 有 记录 , 然后 将 CSV 文 件 中 对 应 的 数量 添加 到 product}, 然后 再 写 入 数据 库 。 


清单 8 显示 了 ProductltemProcessor 类 的 源 代码 。 


清 单 8 productItemProcessor. java 


package com.geekcap.javaworld.springbatchexample .simple.processor; 


import com.geekcap.javaworld.springbatchexample.simple.model.Product; 
import org.springframework.batch.item.ItemProcessor; 

import org.springframework.beans.factory.annotation.Autowired; 

import org.springframework.jdbc.core.JdbcTemplate; 

import org.springframework.jdbc.core.RowMapper; 


import java.sql.ResultSet; 
import java.sql.SQLException; 
import java.util.List; 








Vegas 
* Processor that finds existing products and updates a product quantity appropriately 
*/ 
public class ProductItemProcessor implements ItemProcessor<Product,Product> 
{ 
private static final String GET_PRODUCT = "select * from PRODUCT where id = ?"; 
@Autowired 
private JdbcTemplate jdbcTemplate; 
@Override 
public Product process(Product product) throws Exception 
{ 
// Retrieve the product from the database 
List<Product> productList = jdbcTemplate.query(GET_PRODUCT, new Object[] {product.getId()}, new RowMapper<Prodt 
@Override 
public Product mapRow( ResultSet resultSet, int rowNum ) throws SQLException { 
Product p = new Product(); 
p.setId( resultSet.getInt( 1 ) ); 
p.setName( resultSet.getString( 2 ) ); 
p.setDescription( resultSet.getString( 3 ) ); 
p.setQuantity( resultSet.getInt( 4 ) ); 
return p; 
} 
}); 
if( productList.size() > 0 ) 
{ 
// Add the new quantity to the existing quantity 
Product existingProduct = productList.get( 9 ); 
product.setQuantity( existingProduct.getQuantity() + product.getQuantity() ); 
} 
// Return the (possibly) update prduct 
return product; 
} 
} 





ProductItemProcessor 实现 的 接口 rtemProcessor<1,0> , 其 中 类 型 1 表示 传递 给 处 理 器 的 对 象 类 型 , 而 O 则 表示 义理 器 返回 的 
对 象 类 型 。 在 本 例 中 ,我 们 传人 一 个 Product 对 象 ,返回 的 也 是 一 个 Product 对 象 。 ltemProcessor 接口 只 定义 了 一 个 方法 : 
process() ， 在 里 面 我 们 根据 给 定 的 id 执行 一 条 SELECT 语句 从 数据 库 中 获取 对 应 的 product o 如 果 找 到 product 对 象 ， 
则 将 该 对 象 的 数量 加 上 新 的 数量 。 


processor 没有 做 任何 过 滤 ,但 如 果 process() 方法 返回 null, 则 Spring Batch 将 会 忽略 这 个 item, 不 将 其 发 送 给 writer. 
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将 processor 组 装 到 job 中 是 非常 简单 的 。 首先 ,添加 一 个 新 的 bean 到 applicationcontext .xml 文件 中 : 


<bean id="productProcessor" class="com.geekcap. javaworld.springbatchexample.simple.processor.ProductItemProcessor" /> 
u= | 


接 下 来 ,在 chunk 中 通过 processor 属性 来 引用 这 个 bean: 


<job id="simpleFileImportJob" xmlns="http://www.springframework.org/schema/batch"> 
<step id="importFileStep"> 
<tasklet> 


<chunk reader="productReader" processor="productProcessor" writer="productWriter" commit-interval="5" /> 
</tasklet> 
</step> 
</job> 


O_———————— SSS se | 


编译 并 执行 job, 如 果 不 出 错 , 就 可 以 在 数据 库 中 看 到 产品 的 数量 发 生 了 变化 。 
创建 多 个 processors 


前 面 我 们 定义 了 单个 处 理 器 ,但 某 些 情况 下 可 能 想 要 以 适当 的 粒度 来 创建 多 个 item processor， 然 后 按 顺序 在 同一 个 chunk 之 
中 执行 . 例如 ,可 能 需要 一 个 过 滤器 来 跳 过 数据 库 中 不 存在 的 记录 ,还 需要 一 个 processor 来 正确 地 管理 item RB. 这 时 候 , 我 
们 可 以 使 用 Spring Batch 中 的 compositeItemprocessor 来 大 显 身手 . HAL IME: 


1. 创建 processor 类 

2. 在 applicationContext.xml 中 配置 bean 

3. 定义 一 个 类 型 为 org.Sspringframework.batch.item.Support.CompositeItemProcessor 的 bean, 然 后 将 其 delegates 设置 为 你 
想 执行 的 处 理 器 bean 的 list 

4. 让 chunk 的 processor 属性 引用 CompositeItemProcessor 


假设 我 们 有 一 个 ProductFilterProcessor ， 则 可 以 像 下 面 这 样 指定 process : 


<bean id="productFilterProcessor" class="com.geekcap. javaworld.springbatchexample.simple.processor .ProductFilterItemPr¢ 


<bean id="productProcessor" class="com.geekcap. javaworld.springbatchexample.simple.processor.ProductItemProcessor" /> 


<bean id="productCompositeProcessor" class="org.springframework.batch.item. support .CompositeItemProcessor"> 
<property name="delegates"> 
<list> 
<ref bean="productFilterProcessor" /> 
<ref bean="productProcessor" /> 
</list> 
</property> 
</bean> 


T) 


然后 只 需 修改 一 下 job 配置 即 可 ,如 下 所 示 : 





<job id="simpleFileImportJob" xmlns="http://www.springframework.org/schema/batch"> 
<step id="importFileStep"> 
<tasklet> 
<chunk reader="productReader" processor="productCompositeProcessor" writer="productwriter" commit-interval- 
</tasklet> 
</step> 
</job> 


a SSE | 
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Tasklets( 微 线程 ) 


分 块 是 一 个 非常 好 的 策略 ,用 来 将 作业 拆 分 成 多 块 : 依次 读 取 每 一 个 item, 执行 处 理 , 然后 将 其 按 块 写 出 。 但 如 果 想 执行 某 些 
只 需要 执行 一 次 的 线性 操作 该 怎么 办 呢 ? 此 时 我 们 可 以 创建 一 个 tasklet 。 tasklet 可 以 执行 各 种 操作 /需求 ! 例如 , 可 以 从 
FTP 站 点 下 载 文件 , 解压 /解密 文件 , 或 者 调用 web 服 务 来 判断 文件 处 理 是 否 已 经 执行 。 下 面 是 创建 一 个 tasklet 的 基本 过 程 : 


== 


定义 一 个 实现 org.springframework.batch.core.step.tasklet.Tasklet 接口 的 类 。 

实现 execute() 方法 。 

返回 恰当 的 org.springframework.batch.repeat.RepeatStatus 值 : CONTINUABLE 或 者 是 FINISHED . 
在 applicationcontext.xml 文件 中 定义 对 应 的 bean。 

创建 一 个 step, 其 中 有 一 个 子 元素 tasklet 引用 第 4 步 定义 的 bean。 


ak WNP 


清单 9 显示 了 一 个 新 的 tasklet 的 源码 , 将 我 们 的 输入 文件 拷贝 到 存档 目录 中 。 


清 单 9 ArchiveProductImportFileTasklet .java 


package com.geekcap.javaworld.springbatchexample.simple.tasklet; 


import org.apache.commons.io.FileUtils; 

import org.springframework.batch.core.StepContribution; 

import org.springframework.batch.core.scope.context.ChunkContext; 
import org.springframework.batch.core.step.tasklet.Tasklet; 
import org.springframework.batch.repeat.RepeatStatus; 


import java.io.File; 





* A tasklet that archives the input file 
2: 
public class ArchiveProductImportFileTasklet implements Tasklet 


{ 


private String inputFile; 


@Override 
public RepeatStatus execute(StepContribution stepContribution, ChunkContext chunkContext) throws Exception 


{ 
// Make our destination directory and copy our input file to it 
File archiveDir = new File( "archive" ); 
FileUtils.forceMkdir( archiveDir ); 
FileUtils.copyFileToDirectory( new File( inputFile ), archiveDir ); 


// We're done... 
return RepeatStatus.FINISHED; 
} 


public String getInputFile() { 
return inputFile; 


} 


public void setInputFile(String inputFile) { 
this.inputFile = inputFile; 


} 


ArchiveProductimportFileTasklet 类 实现 了 tasklet 接口 , 并 实现 了 execute) 方法 。 其 中 使 用 Apache Commons I/O E 
具 库 的 Fileutils 类 来 创建 一 个 新 的 archive 目录 ,然后 将 input file 拷贝 到 里 面 。 


将 下 面 的 bean 添 加 到 applicationContext.xml 文件 中 : 


<bean id="archiveFileTasklet" class="com.geekcap.javaworld.springbatchexample.simple.tasklet.ArchiveProductImportFileTé 
<property name="inputFile" value="#{jobParameters['inputFile']}" /> 
</bean> 


E 一 一 一 
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注意 , 我 们 传人 了 一 个 名 为 inputFile 的 job 参数 , 这 个 bean 设置 了 作用 域 范围 scope="step" ,以 确保 在 bean 对 象 创 建 之 前 
需要 的 job 参数 都 被 定义 。 


清单 10 显示 了 更 新 后 的 job. 


清单 10 file-import-job.xml 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema- instance" 
xmlns:context="http://www.springframework.org/schema/context" 
xmlns:batch="http://www.springframework.org/schema/batch" 
xsi:schemaLocation="http://www.springframework.org/schema/beans http://www. springframework.org/schema/beans/spri 
http://www. springframework.org/schema/context http://www. springframework.org/schema/context/spring-cont 
http://www. springframework.org/schema/batch http://www. springframework.org/schema/batch/spring-batch. xs 


<!-- Import our beans --> 
<import resource="classpath:/applicationContext.xml" /> 


<job id="simpleFileImportJob" xmlns="http://www. springframework.org/schema/batch"> 
<step id="importFileStep" next="archiveFileStep"> 
<tasklet> 
<chunk reader="productReader" processor="productProcessor" writer="productWriter" commit-interval="5" / 
</tasklet> 
</step> 
<step id="archiveFileStep"> 
<tasklet ref="archiveFileTasklet" /> 
</step> 
</job> 


</beans> 
ER 


清单 10 中 添加 了 一 个 新 的 step， - archiveFilestep ,然后 在 importFilestep 中 将 "next" 指向 他 。 "next" 参数 允许 我 们 
控制 job 中 step 的 执行 流程 。 虽然 超出 了 本 文 所 需 的 范围 ,但 我 们 需要 注意 , 可 以 根据 某 个 任务 的 执行 结果 状态 来 决定 下 面 执 
行 哪个 step[ 也 就 是 if,switch 什么 的 ]. 的 archiveFilestep 只 包含 上 面 创 建 的 那个 tasklet 。 





弹性 (Resiliency) 


Spring Batch job resiliency 提 供 了 以 下 三 个 工具 : 


1. Skip : 如 果 处 理 过 程 中 某 条 记录 是 错误 的 , 如 CSV 文 件 中 格式 不 正确 的 行 , 那么 可 以 直接 跳 过 该 对 象 , 继续 处 理 下 一 

2. Retry : 如 果 出 现 错误 ,而 很 可 能 在 几 毫 秒 后 再 次 执行 就 能 解决 , 那么 可 以 让 Spring Batch 对 该 元 素 重 试 一 次 /( 或 多 次 )。 
例如 , 你 可 能 想 要 更 新 数据 库 中 的 某 条 , 但 另 一 个 查询 把 这 条 记录 给 锁 了 的 情况 。 而 根据 业务 设计 ,这 个 锁 将 会 很 快 被 释 
放 , 而 重新 党 试 可 能 就 会 成 功 。 

3. Restart : WR job 状态 存储 在 数据 库 中 , 而 一 旦 它 执 行 失败 , 那么 就 可 以 选择 重启 job 实例 , 并 继续 上 次 的 执行 位 置 


我 们 这 里 不 会 详细 讲述 每 个 Resiliency 特征 , 但 我 想 总 结 一 下 可 用 的 选项 。 


Skipping ltems( 跳 过 某 项 ) 


有 时 你 可 能 想 要 跳 过 某 些 记录 , 比如 reader 读 取 的 无 效 记 录 , 或 者 处 理 / 写 入 过 程 中 出 现 异 常 的 对 象 。 要 这 样 做 , 我 们 可 以 指定 
两 个 地 方 : 


e 在 chunk 元 素 上 定义 skip-limit BM, 告诉 Spring 最 多 人 允许 跳 过 多 少 个 items, 超 过 则 job 失败 (如 果 无 效 记录 很 少 那 你 
可 以 接受 ,但 如 果 无 效 记 录 太 多 , 那 可 能 输入 数据 就 有 问题 了 )。 

e 定义 一 个 skippable-exception-classes 列表 , 用 来 判断 当前 记录 是 否 可 以 跳 过 , 可 以 指定 inclue 元 素来 决定 哪些 异常 
发 生 时 将 会 跳 过 当前 记录 , 还 可 以 指定 exclude 元 素来 决定 哪些 异常 不 会 触发 skip( 比如 你 想 跳 过 某 个 异常 层次 父 类 , 但 
排除 一 或 多 个 子 类 异常 时 )。 
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例如 : 


<job id="simpleFileImportJob" xmlns="http://www.springframework.org/schema/batch"> 
<step id="importFileStep"> 
<tasklet> 
<chunk reader="productReader" processor="productProcessor" writer="productwriter" commit-interval="5" skip- 
<skippable-exception-classes> 
<include class="org.springframework.batch.item.file.FlatFileParseException" /> 
</skippable-exception-classes> 
</chunk> 
</tasklet> 
</step> 
</job> 


je N M 


在 这 种 情况 下 , 在 处 理 某 条 记录 时 如 果 抛 出 FlatFileParseException 异常 , 则 这 条 记录 将 被 跳 过 。 如 果 超 过 10 次 skip, 那么 
job 失败 。 





Æ (Retrying Items) 
在 其 他 情况 下 , 有 时 发 生 的 异常 是 可 以 重 试 的 , 如 由 于 数据 库 锁 导致 的 失败 。 重 试 (Retry) 的 实现 和 跳 过 (Skip) 非 常 相似 : 


e 在 chunk 元 素 上 定义 retry-limit BM, 告诉 Spring 每 个 item 最 多 人 允许 重 试 多 少 次 , 超过 则 认为 该 记录 义理 失败 。 如 果 
不 将 重 试 与 跳 过 组 合 起 来 使 用 , 则 某 条 记录 义理 失败 , 则 job 也 被 标记 为 失败 。 

e 定义 一 个 retryable-exception-classes 列表 , 用 来 判断 当前 记录 是 否 可 以 重 试 ; 可 以 指定 inclue 元 素来 决定 哪些 异常 
发 生 时 当前 记录 可 以 重 试 , 还 可 以 指定 exclue 元 素来 决定 哪些 异常 不 会 重 试 当前 记录 .。 


例如 : 


<job id="simpleFileImportJob" xmlns="http://www.springframework.org/schema/batch"> 
<step id="importFileStep"> 
<tasklet> 
<chunk reader="productReader" processor="productProcessor" writer="productwriter" commit-interval="5" retry 
<retryable-exception-classes> 
<include class="org.springframework.dao.OptimisticLockingFailureException" /> 
</retryable-exception-classes> 
</chunk> 
</tasklet> 
</step> 
</job> 


EJ EE) 


还 可 以 将 重 试 和 可 跳 过 的 异常 通过 对 应 的 skippable exception class & retry exception 组 合 起 来 。 因此 , 如 果 某 个 异常 触发 
了 5 次 重 试 , 5 次 重 试 之 后 , 如 果 该 异常 也 在 skippable 列表 中 , 那么 这 条 记录 将 被 跳 过 。 如 果 exception 不 在 skippable 列 表 则 
会 导致 整个 job 失败 。 





重启 job 


最 后 , 对 于 执行 失败 的 job 作业 , 我 们 可 以 重新 启动 ,并 让 他 们 从 上 次 断 开 的 地 方 继续 执行 。 要 达到 这 一 点 , 只 需要 使 用 和 上 次 
一 模 一 样 的 参数 来 启动 job, 则 Spring Batch 会 自动 从 数据 库 中 找到 这 个 实例 然后 继续 执行 。 你 也 可 以 拒绝 重启 , 或 者 参数 控 
制 某 个 job 中 的 一 个 step 可 以 重启 的 次 数 (一 般 来 说 多 次 重 试 都 失败 了 , 那 我 们 可 能 需要 放弃 。) 


总 结 


SN 


~ 


某 些 业务 问题 使 用 批 处 理 是 最 实在 的 解决 方案 , 而 Spring batch 框架 提供 了 实现 批 处 理 作 业 的 架构 。 Spring Batch 将 一 个 分 
块 模式 定义 为 三 个 阶段 : 读 取 (read)、 (process) 已 经 写 入 (write), 并 且 支 持 对 常见 资源 的 读 取 和 写 入 。 本 期 的 Open 
source Java projects 系列 探讨 了 Spring Batch 是 干什么 的 以 及 如 何 使 用 它 。 
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我 们 先 创建 了 一 个 简单 的 job 从 CSV 文 件 读 取 Product 信 息 然后 导入 到 数据 库 , 接着 添加 processor 来 对 job 进行 扩展 : 用 来 
管理 product 数量 。 最 后 我 们 写 了 一 个 单独 的 tasklet 来 及 档 输 入 文件 。 虽然 不 是 示例 的 一 部 分 , 但 Spring Batch 的 弹性 特征 
是 非常 重要 的 , 所 以 我 快速 介绍 了 Spring Batch 提 供 的 三 大 弹性 工具 : skipping records, retrying records, 和 restarting batch 


jobs。 





本 文 只 是 简单 介绍 Spring Batch 的 皮毛 , 但 希望 能 让 你 对 使 用 Spring Batch 执行 批 你 理 作业 有 一 定 的 了 解 和 认识 。 
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Spring Batch 3.0 新 特性 


Spring Batch 3.0 release 主要 有 5 个 主题 


e JSR-252 的 支持 

e 支持 升级 至 Spring4 和 java8 
e 增强 Spring Batch 之 间 的 整合 
e 支持 JobScope 

e 支持 SQLite 


Spring Batch 3.0 新 特性 


33 


Spring Batch 参 考 文 档 中 文 版 


JSR-352 支 持 


JSR-352 是 java 批 处 理 的 新 规范 。 受 Spring Batch 的 深度 影响 ， 该 规范 提供 了 Spring Batch 已 经 存在 的 相关 功能 。Spring 
Batch 3.0 已 实现 该 规范 ， 支 持 遵 循 标准 定义 批 处 理 任 务 了 。 使 用 JSR-352 的 任务 规范 语言 (ISL) 配置 一 个 批 处 理 任 务 ， 代 
码 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<job id="myJob3" xmlns="http://xmlins.jcp.org/xml/ns/javaee" version="1.0"> 
<step id="stepi" > 
<batchlet ref="testBatchlet" /> 
</step> 
</job> 


详细 请 参见 ISR-352 Support 章节 


JSR-352 支 持 34 





Spring Batch 参 考 文 档 中 文 版 


改进 的 Spring Batch Integration 模 块 


Spring Batch Integration $: Spring Batch Admin 项 目的 子 模块 。Spring Batch 的 Spring Integration 提 供 了 更 好 整合 能 力 
的 功能 。 这 些 特殊 功能 包括 : 

e 通过 消息 启动 任务 

e 异步 ltemProcessors 

o 提供 反馈 信息 的 消息 


e 通过 远程 分 区 和 远程 块 执 行 外 部 化 批 处 理 


详细 请 参见 Spring Batch Integration 章节 
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升级 到 支持 Spring 4 和 Java 8 


随 着 Spring Batch Integration 成 为 Spring Batch 项 目的 一 个 模块 ， 它 将 更 新 为 使 用 Spring Integration 4。Spring Integration 
4 给 Spring 引进 了 核心 消息 api。 由 此 ，Spring Batch 3 需要 Spring 4 或 更 高 版 本 的 支持 。 


作为 依赖 此 次 版 本 更 新 的 一 部 分 ，Spring Batch 可 运行 在 java8 上 。 但 它 仍 可 在 java6 或 更 高 版 本 (java6-java8) 上 运行 。 
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JobScope 支 持 


在 很 长 一 段 时 间 内 ，Spring Batch 的 scope 配 置 项 “step" 在 批 处 理应 用 中 起 到 关键 作用 ， 它 提供 了 后 期 绑 定 功能 。 在 Spring 
release 3.0 版 本 ，Spring Batch 支 持 一 个 job" 的 配置 项 。 这 个 配置 允许 对 象 延迟 创建 ， 一 般 直 到 每 个 job 将 要 执行 时 提供 新 的 
实例 。 你 可 在 Section 5.4.2, “Job Scope’ 章节 查看 关于 该 配置 的 详细 内 容 。 
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SQLite 支 持 


SQLite 已 作为 新 的 数据 库 所 支持 ， 可 为 JobRepository 添 加 job repository 的 DDL。 这 将 提供 了 一 个 有 用 的 、 基 于 文件 、 数 据 存 
储 的 测试 意图 。 
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4. 配置 并 运行 Job 


在 上 一 章节 (domain section)， 即 批 你 理 的 域 语言 中 ,讨论 了 整体 的 架构 设计 ， 并 使 用 如 下 关系 图 来 进行 表示 : 





虽然 Job 对 象 看 上 去 像 是 对 于 多 个 Step 的 一 个 简单 容器 ， 但 是 开发 者 必须 要 注意 许多 配置 项 。 此 外 ，Job 的 运行 以 及 Job 运 行 
过 程 中 元 数据 如 何 被 保存 也 是 需要 考虑 的 。 本 章 将 会 介绍 Job 在 运行 时 所 需要 注意 的 各 种 配置 项 。 
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4.1 Configuring a Job 


Job 接 口 的 实现 有 多 个 ， 但 是 在 配置 上 命名 空间 存在 着 不 同 。 必 须 依赖 的 只 有 三 项 : 名 称 name，JobRespository 和 Step 
的 列表 : 


<job id="footballJob"> 


<step id="playerload" parent="si" next="gameLoad"/> 
<step id="gameLoad" parent="s2" next="playerSummarization"/> 
<step id="playerSummarization" parent="s3"/> 

</job> 


He 


在 这 个 例子 中 使 用 了 父 类 的 bean 定 义 来 创建 step， 更 多 描述 step 配 置 的 信息 可 以 参考 step configuration 这 一 节 。XML 命 名 
间 默 认 会 使 用 id 为 jobRepository' 的 引用 来 作为 repository 的 定义 。 然 而 可 以 向 如 下 显 式 的 覆盖 : 


<job id="footballJob" job-repository="specialRepository"> 


<step id="playerload" parent="si" next="gameLoad"/> 
<step id="gameLoad" parent="s3" next="playerSummarization"/> 
<step id="playerSummarization" parent="s3"/> 

</job> 


此 外 ，job 配 置 的 step 还 包含 其 他 的 元 素 ， 有 并 发 处 理 ()， 显 示 的 流程 控制 0/ 和 外 化 的 流程 定义 ()。 


4.1.1 Restartablity 


en 问题 是 要 考虑 job 被 重启 后 的 行为 。 如 果 一 个 JobExecution 已 经 存在 一 个 特定 的 Joblnstance 

， 那 么 这 个 job 启动 时 可 以 认为 是 "重启 "。 理想 情况 下 ， 所 有 任务 都 能 够 在 他 们 中 止 的 地 方 启动 ， 但 是 有 许多 场景 这 是 不 可 能 
的 。 在 这 种 场景 中 就 要 有 开发 者 来 决定 创建 一 个 新 的 Joblnstance ，Spring 对 此 也 提供 了 一 些 帮 助 。 如 果 job 不 需要 重启 ， 
而 是 总 是 作为 新 的 Joblnstance 来 运行 ， 那 么 可 重启 属性 可 以 设置 为 false' : 


<job id="footballJob" restartable="false"> 


</job> 


设置 和 ‘false' 表 示 ' 这 个 job 不 支持 再 次 启 启 一 个 不 可 重启 的 job 会 抛 出 JobRestartException 的 异 
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Job job = new SimpleJob(); 
job.setRestartable(false); 


JobParameters jobParameters = new JobParameters(); 


JobExecution firstExecution = jobRepository.createJobExecution(job, jobParameters); 
jobRepository.saveOrUpdate(firstExecution); 


try { 
jobRepository.createJobExecution(job, jobParameters); 
fail(); 

} 


catch (JobRestartException e) { 
// 预 计 抛 出 JobRestartException 异 常 
} 


这 个 JUnit 代 码 展示 了 创建 一 个 不 可 重启 的 Job 后 ， 第 一 次 能 够 创建 JobExecution ， 第 二 次 再 创建 相同 的 JobExcution 会 抛 出 
一 个 JobRestartException。 
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4.1.2 Intercepting Job Execution 


在 job 执行 过 程 中 ， 自 定义 代码 能 够 在 生命 周期 中 通过 事件 通知 执行 会 是 很 有 用 的 。SimpleJob 能 够 在 适当 的 时 机 调用 


JobListener : 


public interface JobExecutionListener { 
void beforeJob(JobExecution jobExecution); 


void afterJob(JobExecution jobExecution); 


JobListener 能 够 添加 到 SimpleJob 中 去 ， 作 为 job 的 listener 元 素 : 


<job id="footballJob"> 


<step id="playerload" parent="si" next="gameLoad"/> 
<step id="gameLoad" parent="s2" next="playerSummarization"/> 
<step id="playerSummarization" parent="s3"/> 
<listeners> 
<listener ref="sampleListener"/> 
</listeners> 
</job> 


无 论 job 执行 成 功 或 是 失败 都 会 调用 afterJob， 都 可 以 从 JobExecution 中 获取 运行 结果 后 ， 根 据 结果 来 进行 不 同 的 处 理 : 


public void afterJob(JobExecution jobExecution) { 
if( jobExecution.getStatus() == BatchStatus.COMPLETED ){ 
//job 执 行 成 功 } 
else if(jobExecution.getStatus() == BatchStatus. FAILED){ 
//job 执 行 失败 } 


对 应 于 这 个 interface 的 annotation 为 : 


e @BeforeJob 
e @AfterJob 


4.1.3 Inheriting from a parent Job 


如 果 一 组 job 配置 共有 相似 ， 但 又 不 是 完全 相同 ， 那 么 可 以 定义 一 个 " 父 job， 让 这 些 job 去 继承 





子 job 会 把 父 job 的 属性 和 元 素 合并 进来 。 





属性 。 同 Java 的 类 继承 一 样 ， 


下 面 的 例子 中 , “baseJob" 是 一 个 抽象 的 job 定义 ， 只 定义 了 一 个 监听 器 列表 。 名 为 job1" 的 job 是 一 个 具体 定义 ， 它 继承 
了 “baseJob" 的 监听 器 ， 并 且 和 与 自己 的 监听 器 合并 ， 最 终生 成 的 job 带 有 两 个 监听 器 ， 以 及 一 个 名 为 "step1" 的 step。 


<job id="baseJob" abstract="true"> 
<listeners> 
<listener ref="listenerOne"/> 
<listeners> 
</job> 


<job id="jobi" parent="baseJob"> 
<step id="step1" parent="standaloneStep"/> 


<listeners merge="true"> 
<listener ref="listenerTwo"/> 
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<listeners> 
</job> 


更 多 信息 可 参见 Inheriting from a Parent Step 


4.1.4 JobParametersValidator 


一 个 在 xml 命 名 空间 描述 的 job 或 是 使 用 任何 抽象 job 子 类 的 job， 可 以 选择 为 运行 时 为 job 参数 定义 一 个 验证 器 。 在 job 启动 时 需 
要 保证 所 有 必 填 参数 都 存在 的 场景 下 ， 这 个 功能 是 很 有 用 的 。 有 一 个 DefaultJobParametersValidator 可 以 用 来 限制 一 些 简单 


的 必 选 和 可 选 参数 组 合 ， 你 也 可 以 实现 接口 用 来 处 理 更 复杂 的 限制 。 验 证 器 的 配置 支持 使 用 xml 命 名 空间 来 作为 job 的 子 元 
素 ， 例 如 : 


<job id="jobi" parent="baseJob3"> 
<step id="step1" parent="standaloneStep"/> 
<validator ref="paremetersValidator"/> 
</job> 


Sikes LAE A — AB (GO) SRE YHA LB RRA BRE SL FEbeanM an 2 iq h, 
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4.2 Java Config 


在 Spring 3 版 本 中 可 以 采用 java 程 序 来 配置 点 用 程序 ， 来 蔡 代 XML 配置 的 方式 。 正如 在 Spring Batch 2.2.0 版 本 中 ， 批 处 理 任 
务 中 可 以 使 用 相同 的 java 配 置 项 来 对 其 进行 配置 。 关 于 Java 的 基础 配置 的 两 个 组 成 部 分 分 别 是 @EnableBatchconfiguration 
注释 和 两 个 builder。 


在 Spring 的 体系 中 @EnableBatchProcessing 注释 的 工作 原理 与 其 它 的 带 有 @Enable * 的 注释 类 似 。 在 这 种 情 ; 
F, @EnableBatchProcessing 提供 了 构建 批 处 理 任务 的 基本 配置 。 在 这 个 基本 的 配置 中 ， 除 了 创建 了 一 个 StepScope 的 实 
例 ， 还 可 以 将 一 系列 可 用 的 bean 进 行 自动 装配 : 


e JobRepository bean 名 称 "jobRepository" 

e JobLauncher bean 名 称 "jobLauncher" 

e JobRegistry bean 名 称 "jobRegistry" 

e PlatformTransactionManager bean 名 称 "transactionManager" 
e JobBuilderFactory bean 名 称 "jobBuilders" 

e StepBuilderFactory bean 名 称 "stepBuilders" 


这 种 配置 的 核心 接口 是 BatchConfigurer。 它 为 以 上 所 述 的 bean 提 供 了 默认 的 实现 方式 ， 并 要 求 在 context 中 提供 一 
bean, BI DataSource 。 数 据 库 连 接 池 由 被 JobRepository 使 用 。 


主意 只 有 一 个 配置 类 需要 有 @ enablebatchprocessing 注 释 。 只 要 有 一 个 类 添加 了 这 个 注释 ， 则 以 上 所 有 的 bean 都 是 可 以 使 
用 的 。 


在 基本 配置 中 ， 用 户 可 以 使 用 所 提供 的 builder factory 来 配置 一 个 job。 下 面 的 例子 是 通过 JobBuilderFactory 和 
StepBuilderFactory 配置 的 两 个 step job 。 


@Configuration 

@EnableBatchProcessing 
@Import(DataSourceCnfiguration.class) 
public class AppConfig { 


@Autowired 
private JobBuilderFactory jobs; 


@Autowired 
private StepBuilderFactory steps; 


@Bean 
public Job job() { 

return jobs.get("myJob").start(step1()).next(step2()).build(); 
} 


@Bean 
protected Step step1(ItemReader<Person> reader, ItemProcessor<Person, Person> processor, ItemWriter<Person> writer} 
return steps.get("step1") 
.<Person, Person> chunk(10) 
. reader (reader ) 


. processor (processor) 
.writer (writer) 
.build(); 

} 

@Bean 


protected Step step2(Tasklet tasklet) { 
return steps.get("step2") 
.tasklet(tasklet) 
. build(); 
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4.3 Configuring a JobRepository 


之 前 说 过 ，JobRepository 是 基本 的 CRUD 操 作 ， 用 于 持久 化 Spring Batch 的 领域 对 象 (如 JobExecution,StepExecution)。 许 
多 主要 的 框架 组 件 (如 JobLauncherJob,Step) 都 需要 使 用 JobRepository。batch 的 命名 空间 中 已 经 抽象 走 许多 JobRepository 
的 实现 细节 ， 但 是 仍然 需要 一 些 配 置 : 


<job-repository id="jobRepository" 
data-source="dataSource" 
transaction-manager="transactionManager" 
isolation-level-for-create="SERIALIZABLE" 
table-prefix="BATCH_" 
max-varchar -length="1000"/> 


上 面 列 出 的 配置 除了 id 外 都 是 可 选 的 。 如 果 没 有 进行 参数 配置 ， 默 认 值 就 是 上 面 展示 的 内 容 ， 之 所 以 写 出 来 是 用 于 展示 给 读 
者 。 max-varchar-length 的 默认 值 是 2500， 这 表示 varchar 列 的 长 度 ， 在 sample schema scripts 中 用 于 存储 类 似 于 exit 
code 这 些 描述 的 字符 。 如 果 你 不 修改 schema 并 且 也 不 会 使 用 多 字 节 编码 ， 那 么 就 不 用 修改 它 。 


4.3.1 JobRepository 的 事物 配置 


如 果 使 用 了 namespace，repository 会 被 自动 加 上 事务 控制 ， 这 是 为 了 确保 批 处 理 操 作 元 数据 以 及 失败 后 重启 的 状态 能 够 被 准 

确 的 持久 化 ， 如 果 repository 的 方法 不 是 事务 控制 的 ， 那 么 框架 的 行为 就 不 能 够 被 准确 的 定义 。 create* 方法 的 隔离 级 别 会 被 

单独 指定 ， 为 了 确保 任务 启动 时 ， 如 果 两 个 操作 尝试 在 同时 启动 相同 的 任务 ， 那 么 只 有 一 个 任务 能 够 被 成 功 馈 动 。 这 种 方法 

默认 的 隔离 级 别 是 sERIALIZABLE ， 这 是 相当 激进 的 做 法 : READ_coMMITED 能 达到 同样 效果 ; 如 果 两 个 操作 不 以 这 种 方式 冲突 

的 话 READ_UNcoMMITED 也 能 很 好 工作 。 但 是 ， 由 于 调用 create 方法 是 相当 短暂 的 ， 只 要 数据 库 支持 ， 就 不 会 对 性 能 产生 太 
影响 。 它 也 能 被 这 样 覆盖 : 


<job-repository id="jobRepository" 
isolation-level-for-create="REPEATABLE_READ" /> 


如 果 factory 的 namespace 没 有 被 使 用 ， 那 么 可 以 使 用 AOP 来 配置 repository 的 事务 行为 : 


<aop:config> 
<aop: advisor 
pointcut="execution(* org.springframework.batch.core..*Repository+.*(..))"/> 
<advice-ref="txAdvice" /> 
</aop:config> 


<tx:advice id="txAdvice" transaction-manager="transactionManager"> 
<tx:attributes> 
<tx:method name="*" /> 
</tx:attributes> 
</tx:advice> 


这 个 配置 片段 基本 上 可 以 不 做 修改 直接 使 用 。 记 住 加 上 适当 的 namespace 描 述 去 确保 spring-tx 和 spring-aop( 或 是 整个 spring) 
都 在 classpath 中 。 


4.3.2 修改 Table 前 级 


JobRepository 可 以 修改 的 另 一 个 属性 是 元 数据 表 的 表 前 级 。 默 认 是 以 BATCH_ 开 头 ， BATCH_JOB_EXECUTION 和 
BATCH_STEP_EXECUTION 就 是 两 个 例子 。 但 是 ， 有 一 些 潜在 的 原因 可 能 需要 修改 这 个 前 级 。 例 如 schema 的 名 字 需 要 被 预 置 到 表 
名 中 ， 或 是 不 止 一 组 的 元 数据 表 需 要 放 在 同一 个 schema 中 ， 那 么 表 前 级 就 需要 改变 : 
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<job-repository id="jobRepository" 
table-prefix="SYSTEM.TEST_" /> 


按照 上 面 的 修改 配置 ， 每 一 个 元 数据 查询 都 会 带 上 system. test_ 的 前 级 ， BATCH_JOB_EXECUTION 将 会 被 更 换 
HA SYSTEM. TEST JOB- EXECUTION 。 


注意 : 表 名 前 组 是 可 配置 的 ， 表 名 和 列 名 是 不 可 配置 的 。 
4.3.3 In-Memory Repository 


有 的 时 候 不 想 把 你 的 领域 对 象 持久 化 到 数据 库 中 ， 可 能 是 为 了 运行 的 更 快速 ， 因 为 每 次 提交 都 要 开销 额外 的 时 间 ; 也 可 能 3 
不 需要 为 特定 任务 保存 状态 。 那 么 Spring Batch 还 提供 了 内 存 Map 版 本 的 job 仓库 : 


<bean id="jobRepository" 
class="org.springframework.batch.core.repository.support .MapJobRepositoryFactoryBean"> 
<property name="transactionManager" ref="transactionManager"/> 
</bean> 


需要 注意 的 是 内 存 Repository 是 轻 量 的 并 且 不 能 在 两 个 ]JVM 实 例 间 重 所 任务， 也 不 能 允许 同时 启动 带 有 相同 参数 的 任务 ， 
不 适合 在 多 线程 的 任务 或 是 一 个 本 地 分 片 任务 的 场景 下 使 用 。 而 使 用 数据 库 版 本 的 Repository 则 能 够 拥有 这 些 特性 。 


但 是 也 需要 定义 一 个 事务 管理 器 ， 因 为 仓库 需要 回 滚 语 义 ， 也 因为 商业 逻辑 要 求 事务 性 (例如 RDBMS 访 问 ) 。 经 过 测试 许 
多 人 觉得 ResourcelessTransactionManager 是 很 有 用 的 。 


4.3.4 Non-standard Database Types in a Repository 


如 果 使 用 的 数据 库 平 台 不 在 支持 的 平台 列表 中 ， 在 SQL 类 型 类 似 的 情况 下 你 可 以 使 用 近似 的 数据 库 类 型 。 使 用 原生 的 
JobRepositoryFactoryBean 来 取代 命名 空间 缩写 后 设置 一 个 相似 的 数据 库 类 型 : 


<bean id="jobRepository" class="org...JobRepositoryFactoryBean"> 
<property name="databaseType" value="db2"/> 
<property name="dataSource" ref="dataSource"/> 

</bean> 


(如 果 没 有 指定 databaseType ，JobRepositoryFactoryBean 会 通过 DataSource 自 动 检测 数据 库 的 类 型 ). 平 台 之 间 的 主要 不 
同 之 处 在 于 主键 的 计算 策略 ， 也 可 能 需要 履 盖 incrementerFactory (使 用 Spring Framework 提 供 的 标准 实现 )。 如 果 它 还 不 能 
工作 ， 或 是 你 不 使 用 RDBMS， 那 么 唯一 的 选择 是 让 SimpleJobRepository 使 用 Spring 方式 依赖 并 且 绑 定 在 手工 实现 的 各 种 
Dao 接 口上 。 
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4.4 Configuring a JobLauncher 


JobLauncher 最 基本 的 实现 是 SimpleJobLauncher ， 它 唯一 的 依赖 是 通过 JobRepository 获取 一 个 execution : 


<bean id="jobLauncher" 
class="org.springframework.batch.core.launch.support.SimpleJobLauncher"> 
<property name="jobRepository" ref="jobRepository" /> 
</bean> 


一 旦 获取 到 JobExecution ， 那 么 可 以 通过 执行 Job 的 方法 ， 最 终 将 JobExecution 返回 给 调用 者 : 


executel) 







ExitStatus |. buma 






! 
JobExecution i 
4 ieeenensensens me mn with ExitStatus 上 INISHED Dr FAILED 


28 
从 调度 启动 时 ， 整 个 序列 能 够 很 好 的 直接 工作 ， 但 是 ， 从 HTTP 请 求 中 启动 则 会 出 现 一 些 问 题 。 在 这 种 场景 中 ， 启 动 任务 需 


要 异步 操作 ， 让 SimpleJobLauncher 能 够 立刻 返回 结果 给 调用 者 ， 如 果 让 HTTP 请 求 一 直 等 待 很 长 时 间 知 道 批 处 理 任 务 完成 
获取 到 执行 结果 ， 是 很 糟糕 的 操作 体验 。 一 个 流程 如 下 图 所 示 : 
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runt} 
1 execute) 
! 
1 
1 
1 
1 
1 
1 
! Exitstatus | kaane 
1 4 | seeeweeeeeeeeweeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee 
1 1 
1 I 
! JobExecution 1 
4 eseeeeeseeeeeseesseseeseesseeseeseeeseroeeeeoeeooeoa| with ExitStatus 上 INISHED Dr FAILED 


通过 配置 TaskExecutor 可 以 很 容易 的 将 SimpleJobLauncher 配置 成 异步 操作 : 


<bean id="jobLauncher" 
class="org.springframework.batch.core.launch.support.SimpleJobLauncher"> 
<property name="jobRepository" ref="jobRepository" /> 
<property name="taskExecutor"> 
<bean class="org.springframework.core.task.SimpleAsyncTaskExecutor" /> 
</property> 
</bean> 


TaskExecutor 接口 的 任何 实现 都 能 够 用 来 控制 job 的 异步 执行 。 
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4.5 Running a Job 


运行 一 个 批 处 理 任务 至 少 有 两 点 要 求 : 一 个 JobLauncher 和 一 个 用 来 运行 的 job 。 它 们 都 包含 了 相同 或 是 不 同 的 context 。 举 
例 来 说 ， 从 命令 行 来 启动 job， 会 为 每 一 个 job 初始 化 一 个 JVM， 因 此 每 个 job 会 有 一 个 自己 的 JobLauncher ; 从 web 容 器 的 
HttpRequest 来 启动 job， 一 般 只 是 用 一 个 JobLauncher 来 异步 启动 job，http 请 求 会 调用 这 个 JobLauncher 来 启动 它们 需要 
的 job。 


4.5.1 从 命令 行 启 动 Jobs 


对 于 使 用 企业 级 调度 器 来 运行 job 的 用 户 来 说 ， 命 令 行 是 主要 的 使 用 接口 。 这 是 因为 大 多 数 的 调度 器 是 之 间 工 作 在 操作 系统 进 
程 上 (除了 Quartz, 否则 使 用 NativeJob )， 使 用 shell 脚 本 来 和 启动。 除了 shell 脚 本 还 有 许多 脚本 语言 能 启动 java 进 程 ， 如 Perl 和 
Ruby， 甚 至 一 些 构建 工具 也 可 以 ， 如 ant 和 maven。 但 是 大 多 数 人 都 熟悉 shell 脚 本 ， 这 个 例子 主要 展示 shell 脚 本 。 


The CommandLineJobRunner 


由 于 脚本 启动 job 需 要 开启 java 虚 拟 机 ， 那 么 需要 有 一 个 类 带 有 main 方 法 作为 操作 的 主 入 口 点 。Spring Batch 针 对 这 个 需求 提 
供 了 一 个 实现 : CommandLineJobRunner 。 需 要 强调 的 是 这 只 是 引导 你 的 应 用 程序 的 一 种 方法 ， 有 许多 方法 能 够 启动 java 
进程 ， 不 应 该 把 这 个 类 视 为 最 终 方法 。CommandLineJobRunner 执 行 四 个 任务 : 


加 载 适 当 的 Applicationcontext 

解析 到 JobParameters 的 命 合 行 参数 

根据 参数 确定 合适 的 任务 

使 用 在 application context( 应 用 上 下 文 ) 中 所 提供 的 JobLauncher 来 启动 job。 


所 有 这 些 任务 只 要 提供 几 个 参数 就 可 以 完成 。 以 下 是 要 求 的 参数 : 


Table 4.1. CommandLineJobRunner arguments 


jobPath 用 于 创建 ApplicationContext 的 xm1 文 件 地 址 。 这 个 文件 包含 了 完成 任务 的 一 切 配置 。 








jobName 需要 运行 的 job 的 名 字 。 


参数 中 必须 路 径 参 数 在 前 ， 任 务 名 参数 在 后 。 被 设置 到 JobParameter 中 的 参数 必须 使 用 " name=value "的 格式 : 


bash$ java CommandLineJobRunner endOfDayJob.xml endofDay schedule.date(date)=2007/05/05 


大 多 数 情况 下 在 jar 中 放置 一 个 manifest 文 件 来 描述 main class， 但 是 直接 使 用 class 会 比较 简洁 。 还 是 使 用 domain section 
的 'EndOfDay' 例 子 ， 第 一 个 参数 是 endOfDayJob.xml'， 这 是 包含 了 Job 和 Spring ApplicationContext ; 第 二 个 参数 

是 'endOfDay'， 指 定 了 Job 的 名 字 ; 最 后 一 个 参数 'schedule.date(date)=2007/05/05' 会 被 转换 成 JobParameters。 例 子 中 的 
xml 如 下 所 示 : 


<job id="endofDay"> 
<step id="stepi" parent="simpleStep" /> 
</job> 


<! -为 清晰 起 见 省 略 了 Launcher 的 详细 信息 - -> 
<beans:bean id="jobLauncher" 
class="org.springframework.batch.core.launch.support.SimpleJobLauncher" /> 


例子 很 简单 ， 在 实际 案例 中 Spring Batch 运 行 一 个 Job 通 常 有 多 得 多 的 要 求 ， 但 是 这 里 展示 了 CommandLineJobRunner 的 
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两 个 主要 要 求 : Job 和 JobLauncher 。 
ExitCodes 


使 用 企业 级 调度 器 通过 命令 行 启 动 一 个 批 处 理 任务 后 ， 大 多 数 调 度 器 都 是 在 进程 级 别 沉默 的 工作 。 这 意味 着 它们 只 知道 一 些 
操作 系统 进程 信息 (如 它们 执行 的 脚本 )。 在 这 种 场景 下 ， 只 能 通过 返回 code 来 和 调度 器 交流 job 执行 成 功 还 是 失败 的 信息 。 返 
回 code 是 返回 给 调度 程序 进程 的 一 个 数字 ， 用 于 指示 运行 结果 。 最 简单 的 一 个 例子 : 0 表示 成 功 ，1 表 示 失 败 。 更 复杂 的 场景 
如 : job A 返 回 4 就 启动 job B， 返 回 5 就 启动 job C。 这 种 类 型 的 行为 被 配置 在 调度 器 层级 ， 但 重要 的 是 像 Spring Batch 这 种 处 
理 框 架 需 要 为 特殊 的 批 处 理 任务 提供 一 个 返回 'Exit Code' 数 字 表达 式 。 在 SpringBatch 中 ， 退 出 代码 被 封装 在 ExitStatus， 具 
体 细节 会 在 Chapter 5 中 介绍 。 对 于 exit code ， 只 需要 知道 ExitStatus 有 一 个 exit code 属性 能 够 被 框架 或 是 开发 者 设置 ， 作 
为 JobLauncher 返 回 的 JobExecution 的 一 部 分 。CommandLineJobRunner 使 用 ExitCodeMapper 接口 将 字符 串 的 值 转 
换 为 数值 : 


public interface ExitCodeMapper { 


public int intValue(String exitCode); 


ExitCodeMapper 的 基本 协议 是 传 入 一 个 字符 串 ， 返 回 一 个 数字 表达 式 。job 运 行 器 默认 使 用 的 是 
SimpleJvmExitCodeMapper， 完 成 返回 0， 一 般 错 误 返 回 1， 上 下 文 找 不 到 job， 这 类 job 运行 器 启动 级 别 的 错误 则 返回 2。 
如 果 需 要 比 上 面 三 个 值 更 复杂 的 返回 值 ， 就 提供 自 定义 ExitCodeMapper 的 实现 。 由 于 CommandLineJobRunner 是 创建 
ApplicationContext 的 类 ， 不 能 够 使 用 绑 定 功能 ， 所 以 所 有 的 值 都 需要 覆盖 后 使 用 自动 绑 定 ， 因 此 ExitCodeMapper 在 
BeanFactory 中 加 载 ， 就 会 在 上 下 文 被 创建 后 注入 到 job 运行 器 中 。 而 所 有 需要 做 的 就 是 提供 自己 的 ExitCodeMapper 描述 
为 ApplicationContext 的 一 部 分 ， 使 之 能 够 被 运行 器 加 载 。 


4.5.2 在 Web Container 内 部 运行 Jobs 


过 去 ， 像 批 义理 任务 这 样 的 离线 计算 都 需要 从 命令 行 自动 。 但 是 ， 许 多 例子 (包括 报表 、 点 对 点 任务 和 web 支 持 ) 都 表明 ， 从 
HttpRequest 启 动 是 一 个 更 好 的 选择 。 另 外 ， 批 处 理 任务 一 般 都 是 需要 长 时 间 运 行 ， 异 步 馈 动 时 最 为 重要 的 : 


' 
I 
' 
1 
J 
' 
' 
' 
1 


runt} 


execute() 





JobExecution 


=- 了 -~ 


这 个 例子 中 的 Controller 就 是 spring MVC 中 的 Controller(Spring MVC 的 信息 可 以 在 
http://docs.spring.io/spring/docs/3.2.x/spring-framework-reference/html/mvc.html 中 查看 )。Controller 通 过 使 用 配置 为 异步 的 
(asynchronously)JobLauncher 启 动 job 后 立即 返回 了 JobExecution。job 保 持 运 行 ， 这 个 非 阻 塞 的 行为 能 够 让 controller 在 持 有 


Running a Job 50 


Spring Batch 参 考 文 档 中 文 版 





HttpRequest 时 立刻 返回 。 示 例如 下 : 


@Controller 
public class JobLauncherController { 


@Autowired 
JobLauncher jobLauncher; 


@Autowired 
Job job; 


@RequestMapping("/jobLauncher .htm1") 


public void handle() throws Exception{ 
jobLauncher.run(job, new JobParameters()); 


Running a Job 


51 


Spring Batch 参 考 文 档 中 文 版 


4.6 Meta-Data 高 级 用 法 


到 目前 为 止 ， 已 经 讨论 了 JobLauncher 和 JobRepository 接口 ， 它 们 展示 了 简单 启动 任务 ， 以 及 批 处 理 领 域 对 象 的 基本 
CRUD 操 作 : 





一 个 JobLauncher 使 用 一 个 JobRepository 创 建 并 运行 新 的 JobExection 对 象 ，Job 和 Step 实 现 随后 使 用 相同 的 JobRepository 
在 job 运 行 期 间 去 更 新 相同 的 JobExecution 对 象 。 这 些 基本 的 操作 能 够 满足 简单 场景 的 需要 ， 但 是 对 于 有 着 数 百 个 任务 和 复杂 
定时 流程 的 大 型 批 处 理 情况 来 说 ， 就 需要 使 用 更 高 级 的 方式 访问 元 数据 : 


run(Job) 


CRUD operations 





接 下 去 会 讨论 JobExplorer 和 JobOperator 两 个 接口 ， 能 够 使 用 更 多 的 功能 去 查询 和 修改 元 数据 。 


Meta-Data 高 级 用 法 52 


Spring Batch 参 考 文 档 中 文 版 


4.6.1 Querying the Repository 


在 使 用 高 级 功能 之 前 ， 需 要 最 基本 的 方法 来 查询 repository 去 获取 已 经 存在 的 execution o JobExplored 接口 提供 了 这 些 功 


ab. 
Be : 


public interface JobExplorer { 
List<JobInstance> getJobInstances(String jobName, int start, int count); 
JobExecution getJobExecution(Long executionId); 
StepExecution getStepExecution(Long jobExecutionId, Long stepExecutionId); 
JobInstance getJobInstance(Long instanceld); 
List<JobExecution> getJobExecutions(JobInstance jobInstance) ; 


Set<JobExecution> findRunningJobExecutions(String jobName) ; 


上 面 的 代码 表示 的 很 明显 ，JobExplorer 是 一 个 只 读 版 的 JobRepository， 同 JobRepository 一 样 ， 它 也 能 够 很 容易 配置 一 个 工 
VR: 


<bean id="jobExplorer" class="org.spr...JobExplorerFactoryBean" 
p:dataSource-ref="dataSource" /> 


(Earlier in this chapter) 之 前 有 提 到 过 ，JobRepository 能 够 配置 不 同 的 表 前 级 用 来 支持 不 同 的 版 本 或 是 
schema, JobExplorer 也 支持 同样 的 特性 : 


<bean id="jobExplorer" class="org.spr...JobExplorerFactoryBean" 
p:dataSource-ref="dataSource" p:tablePrefix="BATCH_" /> 


4.6.2 JobRegistry 


JobRegistry ( 父 接口 为 JobLocator ) 并 非 强 制 使 用 ， 它 能 够 协助 用 户 在 上 下 文中 追踪 job 是 否 可 用 ， 也 能 够 在 应 用 上 下 文 收集 在 
其 他 地 方 ( 子 上 下 文 ) 创 建 的 job 信息 。 自 定义 的 JobRegistry 实 现 常 被 用 于 操作 job 的 名 称 或 是 其 他 属性 。 框 架 提 供 了 一 个 基于 
map 的 默认 实现 ， 能 够 从 job 的 名 称 映 射 到 job 的 实例 : 





<bean id="jobRegistry" class="org.spr...MapJobRegistry" /> 


有 两 种 方法 自动 注册 job 进 JobRegistry : 使 用 bean 的 post 处 理 器 或 是 使 用 注册 生命 周期 组 件 。 这 两 种 机 制 在 下 面 描 述 。 
JobRegistryBeanPostProcessor 


这 是 post 处 理 器 ， 能 够 将 job 在 创建 时 自动 注册 进 JobRegistry : 


<bean id="jobRegistryBeanPostProcessor" class="org.spr...JobRegistryBeanPostProcessor"> 
<property name="jobRegistry" ref="jobRegistry"/> 
</bean> 


i 


并 不 一 定 要 像 例 子 中 给 post 处 理 器 一 个 id， 但 是 使 用 id 可 以 在 子 context 中 (比如 作为 作为 父 bean 定义 ) 也 使 用 post 处 理 器 ， 
样 所 有 的 job 在 创建 时 都 会 自动 注册 进 JobRegistry。 
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AutomaticJobRegistrar 


这 是 生命 周期 组 件 ， 用 于 创建 子 context 以 及 注册 这 些 子 context 中 的 job。 这 种 做 法 有 一 个 好 义 ， ee 
唯一 ， 但 是 job 的 依赖 项 可 以 不 用 全 局 唯一 ， 它 可 以 有 一 个 “自然 "的 名 字 。 例 如 ， 创 建 了 一 组 xml 配 置 文件 ， 每 个 文件 有 一 
job， 每 个 job 的 ltemReader 都 有 一 个 相同 的 名 字 ( 如 "reader")， 如 果 这 些 文件 被 导入 到 一 个 上 下 文中 ， a 
且 互 相 覆 盖 。 如 果 使 用 了 自动 注册 机 就 能 避免 这 一 切 发 生 。 这 样 集成 几 个 不 同 的 应 用 模块 就 交 得 更 容易 了 : 





<bean class="org.spr...AutomaticJobRegistrar"> 
<property name="applicationContextFactories"> 
<bean class="org.spr...ClasspathXmlApplicationContextsFactoryBean"> 
<property name="resources" value="classpath*:/config/job*.xm1l" /> 
</bean> 
</property> 
<property name="jobLoader"> 
<bean class="org.spr...DefaultJobLoader"> 
<property name="jobRegistry" ref="jobRegistry" /> 
</bean> 
</property> 
</bean> 





注册 机 有 两 个 主要 的 属性 ， 一 个 是 ApplicationContextFactory 数 组 (这 儿 创 建 了 一 个 简单 的 factory bean)， 另 一 个 是 
jobLoader 。JobLoader 负责 管理 子 context 的 生命 周期 以 及 注册 任务 到 JobRegistry。 





ApplicationContextFactory 负责 创建 子 Context， 大 多 数 情况 下 像 上 面 那样 使 用 
ClassPathXmlApplicationContextFactory。 这 个 工厂 类 的 一 个 特性 是 默认 情况 下 他 会 复制 父 上 下 文 的 一 些 配置 到 子 上 下 
文 。 因 此 如 果 不 变 的 情况 下 不 需要 重新 定义 子 上 下 文中 的 PropertyPlaceholderConfigurer 和 AOP 配 置 。 


在 必要 情况 下 ，AutomaticJobRegistrar 可 以 和 JobRegistyBeanPostProcessor 一 起 使 用 。 例 如 ，job 有 可 能 既定 义 在 父 
上 下 文中 也 定义 在 子 上 下 文中 的 情况 。 


4.6.3 JobOperator 


正如 前 面 所 讨论 的 ，JobRepository 提供 了 对 元 数据 的 CRUD 操作 ，JobExplorer 提供 了 对 元 数据 的 只 读 操作 。 然 而 ， 这 些 
操作 最 常用 于 联合 使 用 诸多 的 批量 操作 类 ， 来 对 任务 进行 监测 ， 并 完成 相当 多 的 任务 控制 功能 ， 比 如 停止 、 重 启 或 对 任务 进 
行 汇 总 。 在 Spring Batch 中 JobOperator 接口 提供 了 这 些 操作 类 型 : 


public interface JobOperator { 
List<Long> getExecutions(long instanceId) throws NoSuchJobInstanceException; 


List<Long> getJobInstances(String jobName, int start, int count) 
throws NoSuchJobException; 


Set<Long> getRunningExecutions(String jobName) throws NoSuchJobException; 
String getParameters(long executionId) throws NoSuchJobExecutionException; 


Long start(String jobName, String parameters) 
throws NoSuchJobException, JobInstanceAlreadyExistsException; 


Long restart(long executionId) 
throws JobInstanceAlreadyCompleteException, NoSuchJobExecutionException, 
NoSuchJobException, JobRestartException; 


Long startNextInstance(String jobName) 
throws NoSuchJobException, JobParametersNotFoundException, JobRestartException, 


JobExecutionAlreadyRunningException, JobInstanceAlreadyCompleteException; 


boolean stop(long executionId) 
throws NoSuchJobExecutionException, JobExecutionNotRunningException; 


String getSummary(long executionId) throws NoSuchJobExecutionException; 
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Map<Long, String> getStepExecutionSummaries(long executionId) 
throws NoSuchJobExecutionException,; 


Set<String> getJobNames(); 


上 图 中 展示 的 操作 重 现 了 来 自 其 它 接口 提供 的 方法 ， 上 比如 JobLauncher, JobRepository, JobExplorer, 以 及 JobRegistry。 因 为 
这 个 原因 ， 所 提供 的 JobOperator 的 实现 SimpleJobOperator 的 依赖 项 有 很 多 : 


<bean id="jobOperator" class="org.spr...SimpleJobOperator"> 
<property name="jobExplorer'"> 
<bean class="org.spr...JobExplorerFactoryBean"> 
<property name="dataSource" ref="dataSource" /> 
</bean> 
</property> 
<property name="jobRepository" ref="jobRepository" /> 
<property name="jobRegistry" ref="jobRegistry" /> 
<property name="jobLauncher" ref="jobLauncher" /> 
</bean> 


注意 如 果 你 在 JobRepository 中 设置 了 表 前 级 ， 那 么 不 要 忘记 在 JobExplorer 中 也 做 同样 设置 。 


4.6.4 JobParametersincrementer 


JobOperator 的 多 数 方 法 都 是 不 谨 自 明 的 ， 更 多 详细 的 说 明 可 以 参见 该 接口 的 javadoc(javadoc of the interface)。 然 而 
startNextinstance 方 法 却 有 些 无 所 是 处 。 这 个 方法 通常 用 于 启动 Job 的 一 个 新 的 实例 。 但 如 果 JobExecution 存在 若干 严重 的 
问题 ， 同 时 该 Job 需要 从 头 重新 启动 ， 那 么 这 时 候 这 个 方法 就 相当 有 用 了 。 不 像 JobLauncher ， 启 动 新 的 任务 时 如 果 参 数 不 
同 于 任何 以 往 的 参数 集 ， 这 就 要 求 一 个 新 的 JobParameters 对 象 来 触发 新 的 Joblnstance，startNextlnstance 方法 将 使 用 当 
前 的 JobParametersIncrementer 绑 定 到 这 个 任务 ， 并 强制 其 生成 新 的 实例 : 


public interface JobParametersIncrementer { 
JobParameters getNext(JobParameters parameters); 


H 


JobParametersincrementer 的 协议 是 这 样 的 ， 当 给 定 一 个 JobParameters 对 象 ， 它 将 返回 填充 了 所 有 可 能 需要 的 值 “ 下 一 
个 " JobParameters 对 象 。 这 个 策略 非常 有 用 ， 因 为 框架 无 需 知晓 变 成 “下 一 个 "的 JobParameters 做 了 哪些 更 改 。 例 如 ， 如 果 
任务 参数 中 只 包含 一 个 日 期 参数 ， 那 么 当 创建 下 一 个 实例 时 ， 这 个 值 就 应 该 是 不 是 该 自 增 一 天 ?或 者 一 周 (如 果 任 务 是 以 周 
为 单位 运行 的 话 ) ?任何 包含 数值 类 参数 的 任务 ， 如 果 需 要 对 其 进行 区 分 ， 都 涉及 这 个 问题 ， 如 下 : 


public class SampleIncrementer implements JobParametersIncrementer { 


public JobParameters getNext(JobParameters parameters) { 
if (parameters==null || parameters.isEmpty()) { 
return new JobParametersBuilder().addLong("run.id", 1L).toJobParameters(); 


X 
long id = parameters.getLong("run.id",1L) + 1; 
return new JobParametersBuilder().addLong("run.id", id).toJobParameters(); 


在 该 示例 中 ， 键 值 " run.id "用 以 区 分 各 个 Joblnstance。 如 果 当 前 的 JobParameters 为 空 nul)， 它 将 被 视 为 该 Job 从 未 运行 
过 ， 并 同时 为 其 初始 化 ， 然 后 返回 。 反 之 ， 非 空 的 时 候 自 增 一 个 数值 ， 再 返回 。 自 增 的 数值 可 以 在 命名 空间 描述 中 通过 Job 
的 “incrementer" 属 性 进行 设置 : 


<job id="footballJob" incrementer="sampleIncrementer"> 
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</job> 


4.6.5 Stopping a Job 
JobOperator 最 常见 的 作用 莫 过 于 停止 某 个 Job : 


Set<Long> executions = jobOperator .getRunningExecutions("sampleJob"); 
jobOperator.stop(executions.iterator().next()); 


关闭 不 是 立即 发 生 的 ， 因 为 没有 办 法 将 一 个 任务 立刻 强制 停 掉 ， 尤 其 是 当 任 务 进行 到 开发 人 员 自 己 的 代码 段 时 ， 框 架 在 此 刻 
是 无 能 为 力 的 ， 上 比如 某 个 业务 逻辑 人 处理。 而 一 旦 控制 权 还 给 了 框架 ， 它 会 立刻 设置 当 
前 stepExecution 为 Bachstatus.STOPPED ， 意 为 停止 ， 然 后 保存 ， 最 后 在 完成 前 对 JobExecution 进 行 相同 的 操作 。 


4.6.6 Aborting a Job 


一 个 job 的 执行 过 程 当 执 行 到 FAILED 状 态 之 后 ， 如 果 它 是 可 重 馈 的 ， 它 将 会 被 重启 。 如 果 任 务 的 执行 过 程 状态 是 
ABANDONED， 那 么 框架 就 不 会 重启 它 。ABANDONED 状 态 也 适用 于 执行 步骤 ， 使 得 它们 可 以 被 跳 过 ， 即 便 是 在 一 个 可 重 
启 的 任务 执行 之 中 : 如 果 任 务 执行 过 程 中 碰 到 在 上 一 次 执行 失败 后 标记 为 ABANDONED 的 步 又， 将 会 跳 过 该 步骤 直接 到 下 一 
步 (这 是 由 任务 流 定 义 和 执 行 步骤 的 退出 码 决定 的 )。 


如 果 当 前 的 系统 进程 死 掉 了 (“kill -9? 或 系统 错误 )，job 自 然 也 不 会 运行 ， 但 JobRepository 是 无 法 侦 测 到 这 个 错误 的 ， 因 为 进程 
死 掉 之 前 没有 对 它 进 行 任何 通知 。 你 必须 手动 的 告诉 它 ， 你 知道 任务 已 经 失败 了 还 是 说 考虑 放弃 这 个 任务 (设置 它 的 状态 为 
FAILED 或 ABANDONED) -这 是 业务 逻辑 层 的 事情 ， 无 法 做 到 自动 决策 。 只 有 在 不 可 重启 的 任务 中 才 需 要 设置 为 FAILED 状 


态 ， 或 者 你 知道 重启 后 数据 还 是 有 效 的 。Spring Batch Admin 中 有 一 系列 工具 JobService， 用 以 取消 正在 进行 执行 的 任务 。 
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Act Step 


正如 在 Batch Domain Language 中 叙述 的 ，Step 是 一 个 独立 封装 域 对象 ， 包 含 了 所 有 定义 和 控制 实际 处 理 信息 批 任务 的 序 
列 。 这 是 一 个 比较 抽象 的 描述 ， 因 为 任意 一 个 Step 的 内 容 都 是 开发 者 自己 编写 的 Job。 一 个 Step 的 简单 或 复杂 取决 于 开发 者 
的 意愿 。 一 个 简单 的 Step 也 许 是 从 本 地 文件 读 取 数 据 存 人 数据 库 ， 写 很 少 或 基本 无 需 写 代 码 。 一 个 复杂 的 Step 也 许 有 复杂 的 
业务 规则 (取决 于 所 实现 的 方式 ) ， 并 作为 整个 个 流程 的 一 部 分 。 
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ltemReaders 和 ItemWriters 


所 有 的 批 处 理 都 可 以 描述 为 最 简单 的 形式 : 读 取 大 量 的 数据 , 执行 某 种 类 型 的 计算 /转换 , 以 及 写 出 执行 结果 . Spring Batch 提 


供 了 三 个 主要 接口 来 辅助 执行 大 量 的 读 取 与 写 出 : ltemReader, ltemProcessor 和 ItemWriter. 


ItemReaders 和 ItemWriters 
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6.1 ItemReader 


最 简单 的 概念 , ltemReader 就 是 一 种 从 各 个 输入 源 读 取 数 据 ,然后 提供 给 后 续 步 骤 的 方式 . 最 常见 的 例子 包括 : 


e Flat FileFlat File Item Readers 从 纯 文 本 文件 中 读 取 一 行 行 的 数据 , 存储 数据 的 纯 文 本 文件 通常 具有 固定 的 格式 , 并 且 使 
用 某 种 特殊 字符 来 分 隔 每 条 记录 中 的 各 个 字段 (例如 逗号 ,Comma). 

e XML XML ltemReaders 独立 地 处 理 XML, 包 括 用 于 解析 、 映 射 和 验证 对 象 的 技术 。 还 可 以 对 输入 数据 的 XML 文 件 执行 
XSD schema 验 证 。 

e Database 数据 库 就 是 对 请 求 返回 结果 集 的 资源 ,结果 集 可 以 被 映射 转换 为 需要 义理 的 对 象 。 黑 认 的 SQL ltemReaders 调 
用 一 个 RowMapper 来 返回 对 象 , 并 跟踪 记录 当前 行 ,以 备 有 重启 的 情况 , 存储 基本 统计 信息 ,并 提供 一 些 事 务 增强 特性 ,关于 
事物 将 在 稍 后 解释 。 





虽然 有 各 种 各 样 的 数据 输入 方式 , 但 本 章 我 们 只 关注 最 基本 的 部 分 。 关 于 详细 的 可 用 ltemReaders 列表 可 以 参照 附录 人 


ltemReader 是 一 个 通用 输入 操作 的 基本 接口 : 


public interface ItemReader<T> { 


T read() throws Exception, UnexpectedInputException, ParseException; 


read 是 ltemReader 中 最 根本 的 方法 ; 每 次 调用 它 都 会 返回 一 个 ltem 或 null( 如 果 没 有 更 多 item)。 每 个 item 条 目 , 一 般 对 应 文 
件 中 的 一 行 (line), 或 者 对 应 数据 库 中 的 一 行 (row), 也 可 以 是 XML 文件 中 的 一 个 元 素 (element)。 一 般 来 说 , 这 些 item 都 可 以 被 
映射 为 一 个 可 用 的 domain 对 象 (如 Trade, User 等 等 ), 但 也 不 是 强制 要 求 (最 偷懒 的 方式 ,返回 一 个 Map)。 


一 般 约 定 ItemReader 接口 的 实现 都 是 向 前 型 的 (forward only). 但 如 果 底 层 资 源 是 事务 性 质 的 (如 JMS 队 列 ), 并 且 发 生 回 滚 
(rollback), 那么 下 一 次 调用 read 方法 有 可 能 会 返回 和 前 次 逻辑 上 相等 的 结果 (对 象 )。 值 得 一 提 的 是 , 义理 过 程 中 如 果 没 有 
items, ItemReader 不 应 该 抛 出 异常 。 例 如 ,数据 库 ltemReader 配置 了 一 条 查询 语句 , 返回 结果 数 为 0, 则 第 一 次 调用 read 方 
法 将 返回 null。 
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6.2 ItemWriter 


ItemWriter 在 功能 上 类 似 于 ItemReader, 但 属于 相反 的 操作 。 资源 仍然 需要 定位 ,打开 和 关闭 , 区 别 就 在 于 在 于 ltemWriter 执 
行 的 是 宇 入 操作 (write out), 而 不 是 读 取 。 在 使 用 数据 库 或 队列 的 情况 下 , 写 入 操作 对 应 的 是 插入 ( insert ), 更 新 ( update ), 或 发 
送 ( send )。 序列 化 输出 的 格式 依赖 于 每 个 批 处 理 作 业 自 己 的 定义 。 


和 ItemReader 接口 类 似 , ItemWriter 也 是 个 相当 通用 的 接口 : 


public interface Itemwriter<T> { 


void write(List<? extends T> items) throws Exception; 


类 比 于 ltemReader 中 的 read, write 方法 是 ltemWriter 接口 的 根本 方法 ; 只 要 传人 的 items 列表 是 打开 的 ,那么 它 就 会 尝试 
着 将 其 写 入 (write out) 因为 一 般 来 说 , items 将 要 被 批量 写 入 到 一 起 ,然后 再 输出 , 所 以 write 方法 接受 一 个 List 参数 ,而 不 是 
单个 对 象 (item)。 list 被 输出 后 , 在 write 方法 返回 (return) 之 前 , 对 缓冲 执行 刷 出 (flush) 操 作 是 很 必要 的 。 例如 , 如 果 使 用 
Hibernate DAO 时 , 对 每 个 对 象 要 调用 一 次 DAO 写 操作 , 操作 完成 之 后 , 方法 return 之 前 , writer 就 应 该 关闭 hibernate 的 


Session 会 话 。 
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6.3 ItemProcessor 


ItemReader 和 ItemWriter 接口 对 于 每 个 任务 来 说 都 是 非常 必要 的 , 但 如 果 想 要 在 写 出 数据 之 前 执行 某 些 业务 逻辑 操作 时 要 
怎么 办 呢 ? 一 个 选择 是 对 读 取 (reading) 和 写 入 (writing) 使 用 组 合 模式 (composite pattern): 创建 一 个 ltemWriter 的 子 类 实现 , 内 
部 包含 另 一 个 ltemWriter 对 象 的 引用 (对 于 ItemReader 也 是 类 似 的 ). 示例 如 下 : 


public class CompositeItemwriter<T> implements Itemwriter<T> { 
Itemwriter<T> itemwriter; 


public CompositeItemWriter(Itemwriter<T> itemwriter) { 
this.itemwriter = itemwriter; 


J 


public void write(List<? extends T> items) throws Exception { 
// ... 此 处 可 以 执行 某 些 业务 逻辑 
itemwriter.write(item); 


} 


public void setDelegate(Itemwriter<T> itemwriter){ 
this.itemwriter = itemwriter; 


i 


ee 类 中 包含 了 另 一 个 ltemWriter 引 用 ,通过 代理 它 来 实现 某 些 业务 逻辑 。 这 种 模式 对 于 ltemReader 也 是 一 样 的 道理 , 但 
能 持 有 内 部 ItemReader 所 拥有 的 多 个 数据 输入 对 象 的 引用 。 在 ltemWriter 中 如 果 我 们 想 要 自己 控制 write 的 调用 也 
ee eiF 


但 假如 我 们 只 想 在 对 象 实际 被 写 和 之 前 “改造 " 一 下 传 入 的 item, 就 没 必 要 实现 ItemWriter 和 执行 write 操作 : 我 们 只 需要 这 个 
将 被 修改 的 item 对 象 而 已 。 对 于 这 种 情况 , Spring Batch 提 供 了 ItemProcessor 接口 : 


public interface ItemProcessor<I, 0> { 


0 process(I item) throws Exception; 


ItemProcessor 非常 简单 ; 传人 一 个 对 象 ,对 其 进行 某 些 处 理 / 转 换 ,然后 返回 另 一 个 对 象 (也 可 以 是 同一 个 )。 传人 的 对 象 和 返回 
的 对 象 类 型 可 以 一 样 ， 也 可 以 不 一 致 。 关键 点 在 于 于 勾 理 过 程 中 可 以 执行 一 些 业务 过 辑 操作 ,当然 这 完全 取决 于 开发 者 怎么 实现 
它 。 一 个 ltemProcessor 可 以 被 直接 关联 到 某 个 Step( 步 又 ), 例 如 ,假设 ItemReader 的 返回 类 型 是 Foo 【 译 者 注 : Foo, Bar 一 
类 的 词 就 和 BalaBala 一 样 ,没什么 实际 意义 】, 而 在 写 出 之 前 需要 将 其 转换 成 类 型 Bar 的 对 象 。 就 可 以 编写 一 个 
ltemProcessor 来 执行 这 种 转换 : 


public class Foo {} 


public class Bar { 
public Bar(Foo foo) {} 
} 


public class FooProcessor implements ItemProcessor<Foo, Bar>{ 
public Bar process(Foo foo) throws Exception { 
// 执 行 某 些 操作 ,将 Foo 转换 为 Bar 对 象 
return new Bar(foo); 


} 


public class BarWriter implements ItemWriter<Bar>{ 
public void write(List<? extends Bar> bars) throws Exception { 
//write bars 


} 
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在 上 面 的 简单 示例 中 ,有 两 个 类 : Foo 和 Bar, 以 及 实现 了 ItemProcessor 接口 的 FooProcessor 类 。 因为 是 demo, 所 以 转换 
很 简单 , 在 实际 使 用 中 可 能 执行 转换 为 任何 类 型 , 响应 的 操作 请 读者 根据 需要 自己 编写 。 BarWriter 将 被 用 于 写 出 Bar 对 象 ,如 
果 传 入 其 他 类 型 的 对 象 可 能 会 抛 出 异常 。 同样 ,如 果 FooProcessor 传人 的 参数 不 是 Foo 也 会 抛 出 异常 。FooProcessor 可 
以 注入 到 某 个 Step 中 : 


<job id="ioSampleJob"> 
<Step name="step1"> 
<tasklet> 
<chunk reader="fooReader" processor="fooProcessor" writer="barwriter" 
commit-interval="2"/> 
</tasklet> 
</step> 
</job> 


6.3.1 Chaining ltemProcessors 


在 很 多 情况 下 执行 单个 转换 就 可 以 了 , 但 假如 想 要 将 多 个 ltemProcessors "串联 (chain)" 在 一 起 要 怎么 实现 呢 ? 我 们 可 以 使 用 
前 面 提 到 的 组 合 模式 (composite pattern) 来 完成 。 接着 前 面 单一 转换 的 示例 , 我 们 将 Foo 转 换 为 Bar, 然 后 再 转换 为 Foobar 类 
型 ,并 执行 写 出 : 


public class Foo {} 


public class Bar { 
public Bar(Foo foo) {} 


} 


public class Foobar{ 
public Foobar(Bar bar) {} 


} 





public class FooProcessor implements ItemProcessor<Foo, Bar>{ 
public Bar process(Foo foo) throws Exception { 
//Perform simple transformation, convert a Foo to a Bar 
return new Bar(foo); 


} 


public class BarProcessor implements ItemProcessor<Bar, FooBar>{ 
public FooBar process(Bar bar) throws Exception { 
return new Foobar(bar); 
} 
} 


public class Foobarwriter implements Itemwriter<FooBar>{ 
public void write(List<? extends FooBar> items) throws Exception { 
//write items 


} 


可 以 将 FooProcessor 和 BarProcessor “串联 "在 一 起 来 生成 Foobar 对 象 ,如 果 用 Java 代 码 表示 , 那 就 像 下 面 这 样 : 


CompositeItemProcessor<Foo, Foobar> compositeProcessor = new CompositeItemProcessor<Foo, Foobar>(); 
List itemProcessors = new ArrayList(); 

itemProcessors.add(new FooTransformer()); 

itemProcessors.add(new BarTransformer()); 

compositeProcessor.setDelegates(itemProcessors); 


MAA MAAN! XS Ae Bess th] LAA ElStep#: 
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<job id="ioSampleJob"> 
<step name="stepi"> 
<tasklet> 
<chunk reader="fooReader" processor="compositeProcessor" writer="foobarwriter" 
commit -interval="2"/> 
</tasklet> 
</step> 
</job> 


<bean id="compositeItemProcessor" 
class="org.springframework.batch.item.support.CompositeItemProcessor"> 
<property name="delegates"> 


<list> 
<bean class="..FooProcessor" /> 
<bean class="..BarProcessor" /> 
</list> 
</property> 


</bean> 


6.3.2 Filtering Records 


item processor 的 典型 应 用 就 是 在 数据 传 给 ItemWriter 之 前 进行 过 滤 (filter out), 过 滤 (Filtering) 是 一 种 有 别 于 跳 过 (skipping) 的 
行为 ; skipping 表 明 某 几 行 记录 是 无 效 的 ,而 filtering 则 只 是 表明 某 条 记录 不 应 该 写 和 (written)。 


例如 , 某 个 批 处 理 作业 ,从 一 个 文件 中 读 取 三 种 不 同类 型 的 记录 : HES insert 的 记录 、 准 备 update 的 记录 ,需要 delete 的 记录 。 
如 果 系 统 中 不 允许 删除 记录 , 那么 我 们 肯定 不 希望 籽 “delete” 类 型 的 记录 传递 给 ItemWriter。 但 因为 这 些 记 录 又 不 是 损坏 的 
信息 (bad records), 我 们 只 想 将 其 过 滤 掉 ,而 不 是 跳 过 。 因此 ,ltemWriter 只 会 收 到 "insert" 和 "update" 的 记录 。 


要 过 滤 某 条 记录 , 只 需要 ltemProcessor 返回 nul1" 即 可 . 框架 将 自动 检测 结果 为 “null "的 情况 , 不 会 将 该 iem 添加 到 传 给 
ltemWriter 的 list 中 。 像 往常 一 样 , 在 temProcessor 中 抛 出 异常 将 会 导致 跳 过 (skip)。 


6.3.3 容错 (Fault Tolerance) 


当 某 一 个 分 块 回 滚 时 , 读 取 后 已 被 缓存 的 那些 item 可 能 会 被 重新 处 理 。 如 果 一 个 step 被 配置 为 支持 容错 (通常 使 用 skip 跳 过 或 
retry 重 试 处 理 ), 使 用 的 所 有 Itemprocessor 都 应 该 实现 为 早 等 的 (idempotent)。 通常 llemProcessor 对 已 经 处 理 过 的 输入 数据 
不 执行 任何 修改 , 而 只 更 新 需要 处 理 的 实例 。 
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6.4 ItemStream 


ItemReader 和 ItemWriter 都 为 各 自 的 目的 服务 , 但 他 们 之 间 有 一 个 共同 点 , 就 是 都 需要 与 另 一 个 接口 配合 。 一 般 来 说 ,作为 
批 处 理 作 业 作 用 域 范围 的 一 部 分 ,readers 和 writers 都 需要 打开 (open), 关 闭 (close), 并 需要 某 种 机 制 来 持久 化 自身 的 状态 : 


public interface ItemStream { 
void open(ExecutionContext executionContext) throws ItemStreamException; 
void update(ExecutionContext executionContext) throws ItemStreamException; 


void close() throws ItemStreamException; 


在 描述 每 种 方法 之 前 , 我 们 应 该 提 到 ExecutionContext。 ItemReader 的 客户 端 也 应 该 实现 ItemStream, 在 任何 read 之 前 
调用 open 以 打开 需要 的 文件 或 数据 库 连 接 等 资源 。 实现 ltemWriter 也 有 类 似 的 限制 /约束 , 即 需要 同时 实现 llemStream。 如 
第 2 章 所 述 , 如 果 将 数据 存放 在 ExecutionContext 中 , 那么 它 可 以 在 某 个 时 刻 用 来 启动 ItemReader 或 ltemWriter, 而 不 是 在 
初始 状态 时 。 对 应 的 , 应 该 确保 在 调用 open 之 后 的 适当 位 置 调用 close 来 安全 地 释放 所 有 分 配 的 资源 。 调用 update 主要 
是 为 了 确保 当前 持 有 的 所 有 状态 都 被 加 载 到 所 提供 的 ExecutionContext 中 。 update 一 般 在 提交 之 前 调用 , 以 确保 当前 状态 
被 持久 化 到 数据 库 之 中 。 


在 特殊 情况 下 , ItemStream 的 客户 端 是 一 个 Step( 由 Spring Batch Core 决定 ), 会 为 每 个 StepExecution 创建 一 个 


ExecutionContext， 以 允许 用 户 存储 特定 部 分 的 执行 状态 , 一 般 来 说 如 果 同 一 个 Joblnstance 重 启 了 , 则 预期 它 将 会 在 重启 后 
被 返回 。 对 于 熟悉 Quartz 的 人 来 说 , 逻辑 上 非常 像 是 Quartz 的 JobDataMap。 


ItemStream 64 


Spring Batch 参 考 文 档 中 文 版 





6.5 委托 模式 (Delegate Pattern) 与 注册 Step 


请 注意 , CompositeltemWriter 是 委托 模式 的 一 个 示例 , 这 在 Spring Batch 中 很 常见 的 。 委托 自身 可 以 实现 回调 接口 
StepListener。 如 果实 现 了 ,那么 他 们 就 会 被 当 作 Job 中 Step 的 一 部 分 与 Spring Batch Core 结合 使 用 , 然后 他 们 基本 上 必定 
需要 手动 注册 到 Step 中 。 


一 个 reader, writer, 或 processor, 如 果实 现 了 ItemStream / StepListener 接 口 ,就 会 被 自动 组 装 到 Step 中 。 但 因为 
delegates 并 不 为 Step 所 知 , 因此 需要 被 注入 (作为 listeners 监 听 器 或 streams 流 ,或 两 者 都 可 ): 


<job id="ioSampleJob"> 
<step name="stepi"> 
<tasklet> 
<chunk reader="fooReader" processor="fooProcessor" writer="compositeItemwriter" 
commit -interval="2"> 


<streams> 
<stream ref="barwriter" /> 
</streams> 
</chunk> 
</tasklet> 
</step> 
</job> 
<bean id="compositeItemwriter" class="...CustomCompositeItemwriter"> 
<property name="delegate" ref="barwriter" /> 
</bean> 
<bean id="barWriter" class="...BarWriter" /> 
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6.6 纯 文 本 平面 文件 (Flat Files) 


最 常见 的 批量 数据 交换 机 制 是 使 用 纯 文 本 平面 文件 (flat file), XML 由 统一 约定 好 的 标准 来 定义 文件 结构 ( 即 XSD), 与 XML 等 格 
式 不 同 , 想 要 阅读 纯 文本 平面 文件 必须 先 了 解 其 组 成 结构 。 一 般 来 说 , 纯 文本 平面 文件 分 两 种 类 型 : 有 分 隔 的 类 型 (Delimited) & 
固定 长 度 类 型 (Fixed Length)。 有 分 隔 的 文件 中 各 个 字段 由 分 隔 符 进 行 间隔 , 比如 英文 逗号 (,)。 而 固定 长 度 类 型 的 文件 每 个 字 

段 都 有 固定 的 长 度 。 
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6.6.1 The FieldSet( 字 段 集 ) 


当 在 Spring Batch 中 使 用 纯 文本 文件 时 , 不 管 是 将 其 作为 输入 还 是 输出 , 最 重要 的 一 个 类 就 是 FieldSet。 许 多 架构 和 类 库 会 抽 
象 出 一 些 方法 /类 来 辅助 你 从 文件 读 取 数 据 , 但 是 这 些 方法 通常 返回 string 或 者 string[] 数组 , 很 多 时 候 这 确实 是 些 半 成 
mo 而 FieldSet 是 Spring Batch 中 专门 用 来 将 文件 绑 定 到 字段 的 抽象 。 它 允许 开发 者 和 使 用 数据 库 差 不 多 的 方式 来 使 用 数据 
输入 文件 入 。 Fieldset 在 概念 上 非常 类 似 于 Jdbc 的 Resultset o FieldSet 只 需要 一 个 参数 : 即 token 数 组 string[] 。 另 外 ， 
您 还 可 以 配置 字段 的 名 称 , 然后 就 可 以 像 使 用 Resultset 一 样 , 使 用 index 或 者 name 都 可 以 取得 对 应 的 值 : 





String[] tokens = new String[]{"foo", "1", "true"}; 
FieldSet fs = new DefaultFieldSet (tokens); 

String name = fs.readString(0); 

int value = fs.readInt(1); 

boolean booleanValue = fs.readBoolean(2); 


在 FieldSet 接口 可 以 返回 很 多 类 型 的 对 象 /数据 , 如 Date, long, BigDecimal 等 。 FieldSet 最 大 的 优势 在 于 , 它 对 文本 输入 文 
件 提供 了 统一 的 解析 。 不 是 每 个 批 处 理 作业 采用 不 同 的 方式 进行 解析 ,而 一 直 是 一 致 的 , 不 论 是 在 处 理 格 式 异 常 引 起 的 错误 ， 
还 是 在 进行 简单 的 数据 转换 。 
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6.6.2 FlatFileltemReader 






































本 文中 将 Flat File 翻译 为 "平面 文件 , 这 是 一 种 没有 特殊 格式 的 非 二 进 制 的 文件 ， 里 画 








的 内 容 没 有 相对 关系 结构 的 记 











平面 文件 (flat file) 是 最 多 包含 二 维 (表格 ) 数 据 的 任意 类 型 的 文件 。 在 Spring Batch 框架 中 FlatFileltemReader 类 负责 读 取 平 
面 文件 , 该 类 提供 了 用 于 读 取 和 解析 平面 文件 的 基本 功能 。FlatFileltemReader 主要 依赖 两 个 东西 : Resource 和 
LineMapper。LineMapper 接 口 将 在 下 一 节 详 细 讨 论 。 resource 属性 代表 一 个 Spring Core Resource(Spring 核 心 资源 )。 关 
于 如 何 创建 这 一 类 bean 的 文档 可 以 参考 Spring 框 架 , Chapter 5.Resources。 所 以 本 文档 就 不 再 深入 讲解 创建 Resource 对 
象 的 细节 。 但 可 以 找到 一 个 文件 系统 资源 的 简单 示例 ， 如 下 所 示 : 


Resource resource = new FileSystemResource("resources/trades.csv"); 


在 复杂 的 批 处理 环境 中 ， 目 录 结 构 通常 由 EAI 基础 设施 管理 , 并 且 会 建立 放置 区 (drop zones)， 让 外 部 接口 将 文件 从 ftp 移 动 到 
批 处 理 位 置 , 反之 亦 然 。 文 件 移动 工具 (File moving utilities) 超 出 了 spring batch 架 构 的 范畴 , 但 在 批 冬 理 作 业 中 包括 文件 移动 

步骤 这 种 事情 那 也 是 很 常见 的 。 批 处 理 架 构 只 需要 知道 如 何 定 位 需要 处 理 的 文件 就 足够 了 。Spring Batch 将 会 从 这 个 起 始点 
开始 ， 将 数据 传输 给 数据 管道 。 当 然 , Spring Integration 也 提供 了 很 多 这 一 类 的 服务 。 


FlatFileltemReader 中 的 其 他 属性 让 你 可 以 进一步 指定 数据 如 何 解析 : 





Table 6.1. FlatFileltemReader 的 属性 (Properties) 


属性 (Property) 类 型 (Type) 说 明 (Description) 
comments String] 指定 行 前 级 ， 用 来 表明 哪些 是 注释 行 
encoding String 指定 使 用 哪 种 文本 编码 - 默认 值 为 "1SO-8859-1" 
lineMapper LineMapper 将 一 个 string 转换 为 相应 的 object. 
linesToSkip int 在 文件 项 部 有 多 少 行 需要 跳 过 /忽略 


recordSeparatorPolicy 


resource 


skippedLinesCallback 


strict 


LineMapper 


RecordSeparatorPolicy 


Resource 


LineCallbackHandler 


boolean 


记录 分 拆 策略 , 用 于 确定 行 尾 , 以 及 如 果 在 引号 之 中 时 ， 如 何 处 
理 跨 行 的 内 容 . 


从 哪个 资源 读 取 数 据 . 

忽略 输入 文件 中 某 些 行 时 , 会 将 忽略 行 的 原始 内 容 传递 给 这 个 
回调 接口 。 如 果 linestoskip 设置 为 2, 那么 这 个 接口 就 会 被 调 
用 2 次 。 


如 果 处 于 严格 模式 (strict mode), reader 在 ExecutionContext 
中 执行 时 ， 如 果 输 入 资源 不 存在 , 则 抛 出 异常 . 


就 如 同 RowMapper 在 底层 根据 ResultSet 构造 一 个 Object 并 返回 ， 平面 文件 处 理 过 程 中 也 需要 将 一 行 String 转换 并 构造 


成 Object : 


public interface LineMapper<T> { 


T mapLine(String line, int lineNumber) throws Exception; 
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基本 的 约定 是 , 给 定 当 前 行 以 及 和 它 关 联 的 行 号 (line numben, mapper 应 该 能 够 返回 一 个 领域 对 象 。 这 类 似 于 在 RowMapper 
中 每 一 行 也 有 一 个 line number 相关 联 , 正如 ResultSet 中 的 每 一 行 (Row) 都 有 其 绑 定 的 row number。 这 允许 行 号 能 被 绑 定 到 
生成 的 领域 对 象 以 方便 比较 (identity comparison) 或 者 更 方便 进行 日 志 记 录 。 


但 与 RowMapper 不 同 的 是 , LineMapper 只 能 取得 原始 行 的 String 值 , 正如 上 面 所 说 , 给 你 的 是 一 个 半成品 。 这 行文 本 值 必须 
先 被 解析 为 FieldSet, 然后 才 可 以 映射 为 一 个 对 象 ,如 下 所 述 。 


LineTokenizer 


对 将 每 一 行 输入 转换 为 FieldSet 这 种 操作 的 抽象 是 很 有 必要 的 , 因为 可 能 会 有 各 种 平面 文件 格式 需要 转换 为 FieldSet。 在 
Spring Batch, 对 应 的 接口 是 LineTokenizer: 


public interface LineTokenizer { 


FieldSet tokenize(String line); 


使 用 LineTokenizer 的 约定 是 , 给 定 一 行 输入 内 容 ( 理 论 上 String 可 以 包含 多 行内 容 ), 返回 一 个 表示 该 行 的 FieldSet 对 象 。 这 
个 FieldSet 接着 会 传递 给 FieldSetMapper。Spring Batch 包括 以 下 LineTokenizer 实 现 : 


© DelmitedLineTokenizer 适用 于 义理 使 用 分 隔 符 (delimiten) 来 分 隔 一 条 数据 中 各 个 字段 的 文件 。 最 常见 的 分 隔 符 是 喜 号 
(comma), 但 管道 或 分 号 也 经 常 使 用 。 

e FixedLengthTokenizer 适用 于 记录 中 的 字段 都 是 “固定 宽度 (fixed width)" 的 文件 。 每 种 记录 类 型 中 ， 每 个 字段 的 宽度 必须 
先 定义 。 

e PatternMatchingCompositeLineTokenizer 通过 使 用 正则 模式 匹配 ， 来 决定 对 特定 的 某 一 行 应 该 使 用 LineTokenizers 列表 
中 的 哪 一 个 来 执行 字段 拆 分 。 





FieldSetMapper 


FieldSetMapper 接口 只 定义 了 一 个 方法 ， mapFieldset ,这 个 方法 接收 一 个 FieldSet 对 象 ， 并 将 其 内 容 映 射 到 一 个 object 
中 。 根据 作业 需要 , 这 个 对 象 可 以 是 自 定义 的 DIO, 领域 对 象 , 或 者 是 简单 数组 。FieldSetMapper 与 LineTokenizer 结合 使 
用 以 将 资源 文件 中 的 一 行 数据 转化 为 所 需 类 型 的 对 象 : 


public interface FieldSetMapper<T> { 


T mapFieldSet(FieldSet fieldSet); 


这 和 JdbcTemplate 中 的 RowMapper 是 一 样 的 道理 。 
DefaultLineMapper 
既然 读 取 平 面 文件 的 接口 已 经 定义 好 了 , 那 很 明显 我 们 需要 执行 以 下 三 个 步 又 : 


1， 从 文件 中 读 取 一 行 。 
2. 将 读 取 的 字符 串 传 给 LineTokenizer#tokenize() 方法 ,以 获取 一 个 FieldSet。 
3. 将 解析 后 的 FieldSet 传 给 FieldSetMapper ， 然 后 将 ItemReader#read() 方法 执行 的 结果 返回 给 调用 者 。 


上 面 的 两 个 接口 代表 了 两 个 不 同 的 任务 : 将 一 行文 本 转换 为 FieldSet, 以 及 把 FieldSet 映射 为 一 个 领域 对 象 。 因为 
LineTokenizer 的 输入 对 应 着 LineMapper 的 输入 (一 行 ), 并 且 FieldSetMapper 的 输出 对 应 着 LineMapper 的 输出 , 所 以 
SpringBatch 提供 了 一 个 使 用 LineTokenizer 和 FieldSetMapper 的 默认 实现 。DefaultLineMapper 就 是 大 多 数 情况 下 用 户 所 需 
要 的 : 
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public class DefaultLineMapper<T> implements LineMapper<T>, InitializingBean { 


private 


private 


LineTokenizer tokenizer; 


FieldSetMapper<T> fieldSetMapper ; 


public T mapLine(String line, int lineNumber) throws Exception { 
return fieldSetMapper .mapFieldSet (tokenizer. tokenize(line)); 


public void setLineTokenizer(LineTokenizer tokenizer) { 
this.tokenizer = tokenizer; 


public void setFieldSetMapper(FieldSetMapper<T> fieldSetMapper) { 
this.fieldSetMapper = fieldSetMapper ; 


上 面 的 功能 由 一 个 默认 实现 类 来 提供 ,而 不 是 reader AS ABA (LARRABEE), 让 用 户 可 以 更 灵活 地 控制 解析 过 程 ， 
特别 是 需要 访问 原始 行 的 时 候 。 


文件 分 隔 符 读 取 简单 示例 


下 面 的 例子 用 来 说 明 一 个 实际 的 领域 情景 。 这 个 批 处 理 作 业 将 从 如 下 文件 中 读 取 football player( 足 球 运动 员 ) 信息 : 


ID, lastName, 


firstName, position, birthYear, debutYear 


"AbduKa00, Abdul-Jabbar, Karim, rb,1974,1996", 
"AbduRadO, Abdullah, Rabih, rb,1975,1999", 
"Aberwa00, Abercrombie, Walter, rb,1959,1982", 
"AbraDa00, Abramowicz, Danny, wr,1945,1967", 
"AdamBo0O, Adams, Bob, te, 1946, 1969", 
"AdamCh00, Adams, Charlie, wr,1979, 2003" 


该 文件 的 内 容 将 被 映射 为 领域 对 象 Player: 


public class Player implements Serializable { 


private 
private 
private 
private 
private 
private 


String ID; 

String lastName; 
String firstName; 
String position; 
int birthYear; 
int debutYear; 


public String toString() { 
return "PLAYER: ID=" + ID + ",Last Name=" + lastName + 


" First Name=" + firstName + ",Position=" + position + 
",Birth Year=" + birthYear + ",DebutYear=" + 
debutYear; 


// setters and getters... 


为 了 将 FieldSet 映射 为 Player 对 象 , 需要 定义 一 个 Fieldsetmapper , 返回 player 对 象 : 


protected static class PlayerFieldSetMapper implements FieldSetMapper<Player> { 
public Player mapFieldSet(FieldSet fieldSet) { 
Player player = new Player(); 


player .setID(fieldSet.readString(0)); 

player .setLastName(fieldSet.readString(1)); 
player .setFirstName(fieldSet.readString(2)); 
player .setPosition(fieldSet.readString(3)); 
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player .setBirthYear(fieldSet.readInt(4)); 
player .setDebutYear (fieldSet.readInt(5)); 


return player; 


然后 就 可 以 通过 正确 构建 一 个 FlatFileItemReader ， 调 用 read 方法 来 读 取 文 件 : 


FlatFileItemReader<Player> itemReader = new FlatFileItemReader<Player>(); 
itemReader.setResource(new FileSystemResource("resources/players.csv")); 
//DelimitedLineTokenizer defaults to comma as its delimiter 
LineMapper<Player> lineMapper = new DefaultLineMapper<Player>(); 
lineMapper .setLineTokenizer (new DelimitedLineTokenizer()); 

lineMapper .setFieldSetMapper(new PlayerFieldSetMapper()); 

itemReader .setLineMapper (lineMapper ); 

itemReader .open(new ExecutionContext()); 

Player player = itemReader.read(); 


每 调用 一 次 read 方法 ,都 会 读 取 文件 中 的 一 行 ， 并 返回 一 个 新 的 Player 对 象 。 如 果 到 达 文 件 结尾 , 则 会 返回 null o 
根据 Name 映射 Fields 
有 一 个 额外 的 功能 , DelimitedLineTokenizer 和 FixedLengthTokenizer 都 支持 ， 在 功能 上 类 似 于 Jdbc 的 ResultSet. 


段 的 名 称 可 以 注入 到 这 些 LineTokenizer 实现 以 提高 映射 画 数 的 读 取 能 力 。 首 先 , 平面 文件 中 所 有 字段 的 列 名 会 注入 给 
tokenizer: 


tokenizer.setNames(new String[] {"ID", "lastName","firstName", "position", "birthYear", "debutYear"}); 


FieldSetMapper 可 以 像 下面 这 样 使 用 此 信息 : 





public class PlayerMapper implements FieldSetMapper<Player> { 
public Player mapFieldSet(FieldSet fs) { 

if(fs == null){ 

return null; 
i 
Player player = new Player(); 
player.setID(fs.readString("ID")); 
player .setLastName(fs.readString("lastName") ); 
player .setFirstName(fs.readString("firstName") ); 
player .setPosition(fs.readString("position") ); 
player .setDebutYear(fs.readInt("debutYear") ); 
player .setBirthYear(fs.readInt("birthYear")); 


return player; 


将 FieldSet 字段 映射 为 Domain Object 


= 


子 


很 多 时 候 , 创建 一 个 FieldSetMapper 就 跟 JdbcTemplate 里 编写 RowMapper 一 样 繁琐 。Spring Batch 通 过 使 用 JavaBean 规 


范 ， 提 供 了 一 个 FieldSetMapper 来 自动 将 字段 映射 到 对 应 setter 的 属性 域 。 还 是 使 用 足球 的 例子 ， 
BeanWrapperFieldSetMapper 的 配置 如 下 所 示 : 


<bean id="fieldSetMapper" 
class="org.springframework.batch.item.file.mapping.BeanwrapperFieldSetMapper'"> 
<property name="prototypeBeanName" value="player" /> 
</bean> 
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<bean id="player" 
class="org.springframework.batch.sample.domain.Player" 
scope="prototype" /> 


对 于 FieldSet 中 的 每 个 条 目 (entry), mapper 都 会 在 Player 对 象 的 新 实例 中 查找 相应 的 setter (因此 ,需要 指定 prototype scope), 
和 Spring 容器 查找 setter 匹 配属 性 名 是 一 样 的 方式 。FieldSet 中 每 个 可 用 的 字段 都 会 被 映射 , 然后 返回 组 装 好 的 Player 对 象 ， 
不 需要 再 手写 代码 。 


Fixed Length File Formats 


到 这 一 步 ,我 们 讨论 了 带 分 隔 符 的 文件 , 但 实际 应 用 中 可 能 只 有 一 半 左 右 是 这 种 文件 。 还 有 很 多 机 构 使 用 固定 长 度 形式 的 平面 
文件 。 固 定 长 度 文件 的 示例 如 下 : 


UK21341EAH4121131.11customer1 
UK21341EAH4221232.11customer2 
UK21341EAH4321333.11customer3 
UK21341EAH4421434.11customer4 
UK21341EAH4521535.11customer5 


虽然 看 起 来 像 是 一 个 很 长 的 字段 ,但 实际 上 代表 了 4 个 分 开 的 字段 : 


1. ISIN : 唯一 标识 符 ,订购 的 商品 编码 - 占 12 字 符 。 
2. Quantity : 订购 的 商品 数量 - 占 3 字 符 。 

3. Price : 商品 的 价格 - 占 5 字符 。 

4. Customer : 订购 商品 的 顾客 ld - 占 9 字符 。 


配置 好 FixedLengthLineTokenizer 以 后 , 每 个 字段 的 长 度 必 须 用 范围 (range) 的 形式 指定 : 


<bean id="fixedLengthLineTokenizer" 
class="org.springframework.batch.io.file.transform.FixedLengthTokenizer"> 
<property name="names" value="ISIN, Quantity,Price,Customer" /> 
<property name="columns" value="1-12, 13-15, 16-20, 21-29" /> 
</bean> 


因为 FixedLengthLineTokenizer 使 用 的 也 是 LineTokenizer 接口 , 所 以 返回 值 同样 是 FieldSet, 和 使 用 分 隔 符 基本 上 是 一 样 
的 。 这 也 就 可 以 使 用 同样 的 方式 来 处 理 其 输出 , 例如 使 用 BeanWrapperFieldSetMapper。 


$ 
TERS 




















要 支持 上 面 这 种 范围 式 的 语法 需要 使 用 专门 的 属性 编辑 器 : RangeArrayPropertyEditor , 可 以 在 ApplicationContext 中 
配置 。 当 然 , 这 个 bean 在 批 处 理 命 名 空间 中 的 ApplicationContext 里 已 经 自动 声明 了 。 




















单 文件 中 含有 多 种 类 型 数据 的 处 理 


前 面 所 有 的 文件 读 取 示例 ， 为 简单 起 见 都 做 了 一 个 关键 性 假设 : 在 同一 个 文件 中 的 所 有 记录 都 具有 相同 的 格式 。 但 情况 有 时 候 
并 非 如 此 。 其 实在 一 个 文件 包含 不 同 的 格式 的 记录 是 很 常见 的 ， 需 要 使 用 不 同 的 拆 分 方式 ， 映 射 到 不 同 的 对 象 中 。 下 面 是 一 
个 文件 中 的 片段 ， 仅 作 演示 : 


USER; Smith; Peter; ;T;20014539;F 
LINEA; 1044391041ABC037 .49G201XX1383.12H 
LINEB; 2134776319DEF422.99MOO5LI 


这 个 文件 中 有 三 种 类 型 的 记录 , "USER", "LINEA", 以 及 "LINEB"。 —47 "USER" 对 应 一 个 User xt, "LINEA" 和 "LINEB" 
对 应 的 都 是 Line 对 象 , RE "LINEA" 包含 的 信息 比 "LINEB” 要 多 。 
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ltemReader 分 别 读 取 每 一 行 , 当然 我 们 必须 指定 不 同 的 LineTokenizer 和 FieldSetMapper 以 便 ltemWriter 能 获得 到 正确 的 
item。 PatternMatchingCompositeLineMapper 就 是 专门 拿 来 干 这 个 事 的 ， 可 以 通过 模式 映射 到 对 应 的 LineTokenizer 和 


FieldSetMapper : 


<bean id="orderFileLineMapper" 
class="org.spr...PatternMatchingCompositeLineMapper"> 
<property name="tokenizers"> 
<map> 
<entry key="USER*" value-ref="userTokenizer" /> 
<entry key="LINEA*" value-ref="lineATokenizer" /> 
<entry key="LINEB*" value-ref="lineBTokenizer" /> 
</map> 
</property> 
<property name="fieldSetMappers"> 
<map> 
<entry key="USER*" value-ref="userFieldSetMapper" /> 
<entry key="LINE*" value-ref="lineFieldSetMapper" /> 
</map> 
</property> 
</bean> 


在 这 个 示例 中 , "LINEA" 和 "LINEB" 使 用 独立 的 LineTokenizer， 但 使 用 同一 个 FieldSetMapper. 


PatternMatchingCompositeLineMapper 使 用 patternmatcher 的 match 方法 来 为 每 一 行 选择 正确 的 代理 (delegate)。 
PatternMatcher 支持 两 个 有 特殊 的 意义 通配符 (wildcard): 问号 4 2”, question mark) 将 匹配 1 个 字符 (注意 不 是 0-1 次 ), ME 
号 (4 * "，asterisk) 将 匹配 0 到 多 个 字符 。 


请 注意 ,在 上 面 的 配置 中 ,所 有 以 星 号 结尾 的 pattern , 使 他 们 变 成 了 行 的 有 效 前 级。 PatternMatcher 总 是 匹配 最 具体 的 可 能 
模式 , 而 不 是 按 配 置 的 顺序 从 上 往 下 来 。 所 以 如 果 " LINE*" 和 "LINEA* " 都 配置 为 pattern, 那么 " Linea "将 会 匹配 到 

" LINEA* ", 而 " LINEB" 将 匹配 到 " LINE* "。 此 外 ,单个 星 号 (** ") 可 以 作为 默认 匹配 所 有 行 的 模式 ， 如 果 该 行 不 匹配 其 他 任何 模 
式 的 话 。 


<entry key="*" value-ref="defaultLineTokenizer" /> 


还 有 一 个 PatternMatchingCompositeLineTokenizer 可 用 来 单独 解析 。 


在 平面 文件 中 ， 也 常常 有 单条 记录 跨越 多 行 的 情况 。 要 处 理 这 种 情况 ,就 需要 一 种 更 复 厅 的 策略 。 这 种 模式 的 示例 可 以 参考 第 
11.5 节 “ 跨 域 多 行 的 记录 ”。 


Flat File 的 异常 处 理 
在 解析 一 行 时 , 可 能 有 很 多 情况 会 导致 异常 被 抛 出 。 很 多 平面 文件 不 是 很 完整 , 或 者 里 面 的 某 些 记 录 格 式 不 正确 。 许 多 用 户 会 
选择 忽略 这 些 错误 的 行 , 只 将 这 个 问题 记录 到 日 志 , 比如 原始 行 , 行 号 。 稍 后 可 以 人 工 审查 这 些 日 志 , 也 可 以 由 另 一 个 批 处 理 作 


业 来 检查 。 出 于 这 个 原因 ,Spring Batch 提 供 了 一 系列 的 异常 类 : FlatFileparseException ， 和 FlatFileFormatException o 


FlatFileParseException 是 由 FlatFileltemReader 在 读 取 文 件 时 解析 错误 而 抛 出 的 。 FlatFileFormatException 是 由 实现 了 
LineTokenizer 接口 的 类 抛 出 的 , 表明 在 拆 分 字段 时 发 生 了 一 个 更 具体 的 错误 。 


IncorrectTokenCountException 


DelimitedLineTokenizer 和 FixedLengthLineTokenizer 都 可 以 指定 列 名 (column name), 用 来 创建 一 个 FieldSet。 但 如 果 
column name 的 数量 和 拆 分 时 找到 的 列 数目 ， 则 不 会 创建 FieldSet， 只 会 抛 出 IncorrectTokenCountException 异常 , 里 面包 
AT 字段 的 实际 数量 ,还 有 预期 的 数量 : 





tokenizer.setNames(new String[] {"A", "B", "C", "D"}); 


try { 
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tokenizer.tokenize("a,b,c"); 


J 


catch(IncorrectTokenCountException e){ 
assertEquals(4, e.getExpectedCount()); 
assertEquals(3, e.getActualCount()); 


A tokenizer 配置 了 4 列 的 名 称 ,但 在 这 个 文件 中 只 找到 3 个 字段 , 所 以 会 抛 出 IncorrectTokenCountException 异常 。 
IncorrectLineLengthException 


固定 长 度 格式 的 文件 在 解析 时 有 额外 的 要 求 , 因为 每 一 列 都 必须 严格 遵守 其 预定 义 的 宽度 。 如 果 一 行 的 总 长 度 不 等 于 所 有 字段 
宽度 之 和 , 就 会 抛 出 一 个 异常 : 


tokenizer.setColumns(new Range[] { new Range(1, 5), 
new Range(6, 10), 
new Range(11, 15) }); 
try 
tokenizer .tokenize("12345"); 
fail("Expected IncorrectLineLengthException"); 
} 
catch (IncorrectLineLengthException ex) { 
assertEquals(15, ex.getExpectedLength()); 
assertEquals(5, ex.getActualLength()); 


上 面 配置 的 范围 是 : 1-5, 6-10, 以 及 11-15 ,因此 预期 的 总 长 度 是 15。 但 在 这 里 传人 的 行 的 长 度 是 5 ,所 以 会 导致 
IncorrectLineLengthException 异常 。 之 所 以 直接 抛 出 异常 , 而 不 是 先 去 映射 第 一 个 字段 的 原因 是 为 了 更 早 发 现 处 理 失 败 , 而 
不 再 调用 FieldSetMapper 来 读 取 第 2 列 。 但 是 呢 ， 有 些 情况 下 , 行 的 长 度 并 不 总 是 固定 的 。 出 于 这 个 原因 , 可 以 通过 设置 
‘strict 属性 的 值 ， 不 验证 行 的 宽度 : 





tokenizer.setColumns(new Range[] { new Range(1, 5), new Range(6, 10) }); 
tokenizer.setStrict(false); 

FieldSet tokens = tokenizer.tokenize("12345"); 

assertEquals("12345", tokens.readString(0)); 

assertEquals("", tokens.readString(1)); 


上 面 示例 和 前 一 个 几乎 完全 相同 , 只 是 调用 了 tokenizer.setStrict(false) 。 这 个 设置 告诉 tokenizer 在 对 一 行进 行 解析 
(tokenizing) 时 不 要 去 管 (enforce) 行 的 长 度 。 然 后 就 正确 地 创建 了 一 个 FieldSet 并 返回 。 当 然 , 剩 下 的 值 就 只 会 包含 空 的 token 
值 。 
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6.6.3 FlatFileltemWriter 


将 数据 写 和 人 到 纯 文 本 文件 也 必须 解决 和 读 取 文 件 时 一 样 的 问题 。 在 事务 中 ,一 个 step 必须 通过 分 隔 符 或 采用 固定 长 度 的 格式 
将 数据 写 出 去 . 


LineAggregator 


与 LineTokenizer 接口 的 处 理 方式 类 似 , 写 入 文件 时 也 需要 有 某 种 方式 将 一 条 记录 的 多 个 字段 组 织 拼接 成 单个 String, 然 后 再 
将 string 写 入 文件 . Spring Batch 对 应 的 接口 是 LineAggregator : 


public interface LineAggregator<T> { 


public String aggregate(T item); 


接口 LineAggregator 与 LineTokenizer 相互 对 应 . LineTokenizer 接收 String ,处理 后 返回 一 个 FieldSet 对 象 , 而 
LineAggregator 则 是 接收 一 条 记录 ,返回 对 应 的 String. 


PassThroughLineAggregator 


LineAggregator 接口 最 基础 的 实现 类 是 PassThroughLineAggregator , 这 个 简单 实现 仅仅 是 将 接收 到 的 对 象 调 用 toString) 方法 
的 值 返 回 : 


public class PassThroughLineAggregator<T> implements LineAggregator<T> { 


public String aggregate(T item) { 
return item.toString(); 


3 


上 面 的 实现 对 于 需要 直接 转换 为 String 的 时 候 是 很 管用 的 ,但 是 FlatFileltemWriter 的 一 些 优势 也 是 很 有 必要 的 ,比如 事务 ,以 及 
支持 重启 特性 等 . 


简单 的 文件 写 和 示例 
既然 已 经 有 了 LineAggregator 接口 以 及 其 最 基础 的 实现 , PassThroughLineAggregator, 那 就 可 以 解释 基础 的 写 出 流程 了 : 


要 写 出 的 对 象 传递 给 LineAggregator 以 获取 一 个 字符 串 (String). 


将 返回 的 String 写 入 配置 指定 的 文件 中 . 


T 
2. 4 
File FlatFileltemWriter 中 对 应 的 代码 : 


public void write(T item) throws Exception { 
write(lineAggregator.aggregate(item) + LINE_SEPARATOR); 
Y 


简单 的 配置 如 下 所 示 : 


<bean id="itemwriter" class="org.spr...FlatFileItemwriter"> 
<property name="resource" value="file:target/test-outputs/output.txt" /> 
<property name="lineAggregator"> 
<bean class="org.spr...PassThroughLineAggregator"/> 
</property> 
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</bean> 


属性 提取 器 FieldExtractor 


上 面 的 示例 可 以 应 对 最 基本 的 文件 写 入 情景 。 但 使 用 FlatFileitemwriter 时 可 能 更 多 地 是 需要 将 某 个 领域 对 象 写 到 文件 ,因此 
必须 转换 到 单行 之 中 。 在 读 取 文 件 时 ,有 以 下 步骤 : 


1， 从 文件 中 读 取 一 行 . 
2. 将 这 一 行 字 符 串 传递 给 LineTokenizer#tokenize() 方法 , 以 获取 FieldSet 对 象 
3. 将 分 词 器 返回 的 FieldSet 传 给 一 个 FieldSetMapper 映射 器 , 然后 将 temReader#read() 方法 得 到 的 结果 return, 


文件 的 写 入 也 很 类 似 , 但 步骤 正好 相反 : 
要 写 入 的 对 象 传 递 给 writer 


L 
2. 将 领域 对 象 的 属性 域 转 换 为 数组 
3. 将 结果 数组 合并 (aggregate) 为 一 行 字符 串 





因为 框架 没 办 法 知道 需要 将 领域 对 象 的 哪些 字段 写 入 到 文件 中 ， 所 以 就 需要 有 一 个 FieldExtractor 来 将 对 象 转 换 为 数组 : 


public interface FieldExtractor<T> { 


Object[] extract(T item); 


FieldExtractor 的 实现 类 应 该 根据 传人 对象 的 属性 创建 一 个 数组 ， 稍 后 使 用 分 隔 符 将 各 个 元 素 写 入 文件 ， 或 者 作为 field-width 
line 的 一 部 分 . 


PassThroughFieldExtractor 


在 很 多 时 候 需要 将 一 个 集合 (如 array, Collection, FieldSet 等 ) 写 出 到 文件 。 从 集合 中 “提取 ”一 个 数组 那 真 的 是 非常 简单 : 直接 
进行 简单 转换 即 可 。 因此 在 这 种 场合 PassThroughFieldExtractor 就 派 上 用 场 了 。 频 该 注意 ,如 果 传 入 的 对 象 不 是 集合 类 型 的 ， 
那么 PassThroughFieldExtractor 将 返回 一 个 数组 , 其 中 只 包含 提取 的 单个 对 象 。 


BeanWrapperFieldExtractor 


与 文件 读 取 一 节 中 所 描述 的 BeanwrapperFieldsetMapper 一 样 , 通常 使 用 配置 来 指定 如 何 将 领域 对 象 转换 为 一 个 对 象 数组 是 比 
较 好 的 办 法 , 而 不 用 自己 写 个 方法 来 进行 转换 。BeanWrapperFieldExtractor 就 提供 了 这 类 功能 


BeanwrapperFieldExtractor<Name> extractor = new BeanwrapperFieldExtractor<Name>(); 
extractor.setNames(new String[] { "first", "last", "born" }); 


String first = "Alan"; 
String last = "Turing"; 
int born = 1912; 


Name n = new Name(first, last, born); 
Object[] values = extractor.extract(n); 


assertEquals(first, values[0]); 
assertEquals(last, values[1]); 
assertEquals(born, values[2]); 


这 个 extractor 实现 只 有 一 个 必需 的 属性 ,就 是 names , 里 面 用 来 存放 要 映射 字段 的 名 字 。 就 像 BeanwrapperFieldsetMapper 需 
要 字段 名 称 来 将 FieldSet 中 的 field 映射 到 对 象 的 setter 方法 一 样 ，BeanwrapperFieldExtractor 需要 names 映射 getter 方法 
来 创建 一 个 对 象 数组 。 值 得 注意 的 是 , names 的 顺序 决定 了 field 在 数组 中 的 顺序 。 
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分 隔 符 文件 (Delimited File) 写 入 示例 


最 基础 的 平面 文件 格式 是 将 所 有 字段 用 分 隔 符 (delimiter) 来 进行 分 隔 (separated)。 这 可 以 通过 DelimitedLineAggregator 来 
完成 。 下 面 的 例子 把 一 个 表示 客户 信用 额度 的 领域 对 象 写 出 : 


public class CustomerCredit { 


private int id; 
private String name; 
private BigDecimal credit; 


//getters and setters removed for clarity 


因为 使 用 到 了 领域 对 象 ,所 以 必须 提供 FieldExtractor 接口 的 实现 ， 当 然 也 少不了 要 使 用 的 分 隔 符 : 


<bean id="itemwriter" class="org.springframework.batch.item.file.FlatFileItemwriter"> 
<property name="resource" ref="outputResource" /> 
<property name="lineAggregator"> 
<bean class="org.spr...DelimitedLineAggregator"> 
<property name="delimiter" value=","/> 
<property name="fieldExtractor"> 
<bean class="org.spr...BeanWrapperFieldExtractor"> 
<property name="names" value="name, credit"/> 
</bean> 
</property> 
</bean> 
</property> 
</bean> 


在 这 种 情况 下 , 本 章 前 面 提 到 过 的 BeanWrapperFieldExtractor 被 用 来 将 CustomerCredit 中 的 name 和 credit 字段 转换 为 一 
个 对 象 数组 , 然后 在 各 个 字段 之 间 用 逗号 分 隔 写 入 文件 。 


固定 宽度 的 (Fixed Width) 文 件 写 入 示例 


平面 文件 的 格式 并 不 是 只 有 采用 分 隔 符 这 种 类 型 。 许 多 人 喜欢 对 每 个 字段 设置 一 定 的 宽度 ， 这 样 就 能 区 分 各 个 字段 了 ,这 种 做 
法 通常 被 称 为 “固定 宽度 , fixed width”, Spring Batch 通过 FormatterLineAggregator 支持 这 种 文件 的 写 入 。 使 用 上 面 描述 的 
CustomerCredit 领域 对 象 , 则 可 以 对 它 进行 如 下 配置 : 


<bean id="itemwriter" class="org.springframework.batch.item.file.FlatFileItemwriter"> 
<property name="resource" ref="outputResource" /> 
<property name="lineAggregator"> 
<bean class="org.spr...FormatterLineAggregator"> 
<property name="fieldExtractor"> 
<bean class="org.spr...BeanWrapperFieldExtractor"> 
<property name="names" value="name,credit" /> 
</bean> 
</property> 
<property name="format" value="%-9s%-2.0f" /> 
</bean> 
</property> 
</bean> 


上 面 的 示例 大 部 分 看 起 来 是 一 样 的 , 只 有 format 属性 的 值 不 同 : 


<property name="format" value="%-9s%-2.0f" /> 


底层 实现 采用 Java 5 提供 的 Formatter 。Java 的 Formatter (格式 化 ) 基于 C 语 言 的 printf WARE. KFA MAS 
formatter 请 参考 Formatter 的 javadoc. 
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处 理 文件 创建 (Handling File Creation) 


FlatFileltemReader 与 文件 资源 的 关系 很 简单 。 在 初始 化 reader 时 ,如 果 文 件 存在 则 打开 , 如 果 文 件 不 存在 那 就 抛 出 一 个 异常 


(exception)。 


但 是 文件 的 写 入 就 没 那 么 简单 了 。 乍 一 看 可 能 会 觉得 跟 FlatFileltemWriter 一 样 简单 直接 粗暴 : 如 果 文 件 存在 则 抛 出 异常 , 如 果 
不 存在 则 创建 文件 并 开始 写 入 。 


但 是 , 作业 的 重启 有 可 能 会 有 BUG。 在 正常 的 重启 情景 中 , 约定 与 前 面 所 想 的 恰恰 相反 : 如 果 文件 存在 , 则 从 已 知 的 最 后 一 个 
正确 位 置 开始 写 入 , 如 果 不 存在 , 则 抛 出 异常 。 


如 果 此 作业 (Job) 的 文件 名 每 次 都 是 一 样 的 那 怎么 办 ? 这 时 候 可 能 需要 删除 已 存在 的 文件 (重启 则 不 删除 )。 因为 有 这 些 可 能 性 ， 
FlatFileItemwriter 有 一 个 属性 shouldbeleterfexists 。 将 这 个 属性 设置 为 true , 打开 writer 时 会 业已 有 的 同名 文件 删除 。 
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6.7 XML Item Readers and Writers 


Spring Batch 为 读 取 XML 映 射 为 Java 对 象 以 及 将 Java 对 象 写 为 XML 记录 提供 了 事务 基础 。 


[注意 ]XML 流 的 限制 StAX API 被 用 在 其 他 XML 解析 引擎 不 适合 批 处 理 请 求 VO 时 的 情况 (DOM 方 式 把 整个 输入 文件 加 载 到 内 
FH, 而 SAX 方 式 在 解析 过 程 中 需要 用 户 提供 回调 )。 


让 我 们 仔细 看 看 在 Spring Batch 中 XML 输 入 和 输出 是 如 何 运 行 的 。 首先 ,有 一 些 不 同 于 文件 读 取 和 写 入 的 概念 ,但 在 Spring 
Batch XML 人 处理 中 是 很 常见 的 。 在 处 理 XML 时 , 并 不 像 读 取 文 本 文件 (FieldSets) 时 采取 分 隔 符 标记 逐 行 读 取 的 方式 , 而 是 假定 
XML 资源 是 对 应 于 单条 记录 的 文档 片段 (C fragments ') HEA: 





图 3.1: XML 输入 文件 


“trade "标签 在 上 面 的 场景 中 是 根 元 素 “root element”, 在 ' <trade> ' 和 ' </trade> ' 之 间 的 一 切 都 被 认为 是 一 个 文档 片 

段 ' fragment '。 Spring Batch 使 用 ObjectXML 了 映射 (OXM) 将 fragments 绑 定 到 对 象 。 但 Spring Batch 并 不 依赖 某 个 特定 的 
XML 绑 定 技术 。 Spring OXM 委托 是 最 典型 的 用 途 , 其 为 常见 的 OXM 技 术 提 供 了 统一 的 抽象 。 Spring OXM 依赖 是 可 选 的 , 如 
有 必要 ， 你 也 可 以 自己 实现 Spring Batch 的 某 些 接口 。 OXM 支 持 的 技术 间 的 关系 如 下 图 所 示 : 


XML H% Fr 79 


Spring Batch 参 考 文 档 中 文 版 





- 
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Any binding framework 
supported by Spring OXM 


图 3.2: OXM Binding 


Spring OXM 





上 面 介绍 了 OXM 以 及 如 何 使 用 XML 片段 来 表示 记录 , 接着 让 我 们 仔细 了 解 下 readers 和 writers 。 
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6.7.1 StaxEventitemReader 


StaxEventitemReader 提供 了 从 XML 输入 流 进行 记录 义理 的 典型 设置 。 首先 ,我 们 来 看 一 下 StaxEventltemReader 能 处 理 
的 一 组 XML 记录 。 


<?xml version="1.0" encoding="UTF-8"?> 


<records> 
<trade xmlns="http://springframework.org/batch/sample/io/oxm/domain"> 
<isin>XYZ0001</isin> 


<quantity>5</quantity> 
<price>11.39</price> 
<customer>Customeri</customer> 


</trade> 
<trade xmlns="http://springframework.org/batch/sample/io/oxm/domain"> 
<isin>XYZ0002</isin> 


<quantity>2</quantity> 
<price>72.99</price> 
<customer>Customer2c</customer> 


</trade> 
<trade xmlns="http://springframework.org/batch/sample/io/oxm/domain"> 
<isin>XxYZ0003</isin> 


<quantity>9</quantity> 
<price>99.99</price> 
<customer>Customer3</customer> 
</trade> 
</records> 


能 被 处 理 的 XML 记录 需要 满足 下 列 条 件 : 


e Root Element Name 片段 根 元 素 的 名 称 就 是 要 映射 的 对 象 。 上 面 的 示例 代表 的 是 trade 的 值 。 
e Resource Spring Resource 代表 了 需要 读 取 的 文件 。 
e Unmarshaller Spring OXM 提 供 的 Unmarshalling 用 于 将 XML 片段 映射 为 对 象 . 


# 


<bean id="itemReader" class="org.springframework.batch.item.xml.StaxEventItemReader"> 
<property name="fragmentRootElementName" value="trade" /> 
<property name="resource" value="data/iosample/input/input.xml" /> 
<property name="unmarshaller" ref="tradeMarshaller" /> 

</bean> 


请 注意 ,在 上 面 的 例子 中 ,我 们 选用 一 个 XStreamMarshaller, 里 面 接受 一 个 id 为 aliases 的 map, 将 首 个 entry 的 key 值 作为 文 
档 片段 的 name( 即 根 元 素 ), 将 value 作为 绑 定 的 对 象 类 型 。 类 似 于 FieldSet, 后 面 的 其 他 元 素 映射 为 对 象 内 部 的 字段 名 / 值 
对 。 在 配置 文件 中 ,我 们 可 以 像 下 面 这 样 使 用 Spring 配置 工具 来 描述 所 需 的 alias: 


<bean id="tradeMarshaller" 
class="org.springframework.oxm.xstream.XStreamMarshaller'"> 
<property name="aliases"> 
<util:map id="aliases"> 
<entry key="trade" 
value="org.springframework.batch.sample.domain.Trade" /> 
<entry key="price" value="java.math.BigDecimal" /> 
<entry key="name" value="java.lang.String" /> 
</util:map> 
</property> 
</bean> 


当 reader 读 取 到 XML 资源 的 一 个 新 片段 时 (匹配 默认 的 标签 名 称 )。reader 根据 这 个 片段 构建 一 个 独立 的 XML( 或 至 少 看 起 来 
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是 这 样 ), 并 将 document 传 给 反 序列 化 器 (通常 是 一 个 Spring OXM Unmarshaller 的 包装 类 ) 将 XML 映射 为 一 个 Java 对 象 。 


总 之 ,这 个 过 程 类 似 于 下 面 的 Java 代 码 ,其 中 配置 了 Spring 的 注入 功能 : 


StaxEventItemReader xmlStaxEventItemReader = new StaxEventItemReader() 
Resource resource = new ByteArrayResource(xmlResource.getBytes()) 


Map aliases = new HashMap(); 

aliases.put("trade", "org.springframework.batch.sample.domain.Trade") ; 
aliases.put("price", "java.math.BigDecimal"); 

aliases.put("customer", "java.lang.String"); 

Marshaller marshaller = new XStreamMarshaller(); 
marshaller.setAliases(aliases) ; 

xmlStaxEventItemReader .setUnmarshaller(marshaller) ; 
xmlStaxEventItemReader .setResource(resource) ; 

xmlStaxEventItemReader .setFragmentRootElementName("trade") ; 
xmlStaxEventItemReader .open(new ExecutionContext()); 





boolean hasNext = true 
CustomerCredit credit = null; 


while (hasNext) { 
credit = xmlStaxEventItemReader.read(); 
if (credit == null) { 
hasNext = false; 


} 
else { 
System.out.println(credit); 
¥ 
} 
StaxEventItemReader 
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6.7.2 StaxEventitemWriter 


输出 与 输入 相对 应 . StaxEventltemWriter 需要 1 个 Resource, 1 个 marshaller 以 及 1 个 rootTagName . Java 对 象 传递 给 

marshaller( 通 常 是 标准 的 Spring OXM marshaller), marshaller 使 用 自 定义 的 事件 writer 写 入 Resource, 并 过 滤 由 OXM 工 具 为 
每 条 fragment 产生 的 StartDocument 和 EndDocument 事 件 。 我 们 用 MarshallingEventWriterSerializer 示例 来 显示 这 一 点 。 
Spring 配置 如 下 所 示 : 


<bean id="itemwriter" 


<property name="resource" ref="outputResource" /> 
<property name="marshaller" ref="customerCreditMarshaller" /> 
<property name="rootTagName" value="customers" /> 
<property name="overwriteOutput" value="true" /> 
</bean> 





上 面 配置 了 3 个 必需 的 属性 ,以 及 1 个 可 选 属性 overwriteoutput = 
以 被 覆盖 。 应 该 注意 的 是 ，writer 使 用 的 marshaller 和 前 面 讲 的 reading 示例 中 是 完全 相同 的 : 


<bean id="customerCreditMarshaller" 

class="org.springframework.oxm.xstream.XStreamMarshaller"> 
<property name="aliases"> 

<util:map id="aliases"> 


<entry key="customer" 


class="org.springframework.batch.item.xml.StaxEventItemwriter"> 


true , (本 章 前 面 提 到 过 ) 用 来 指定 一 个 已 存在 的 文件 是 否 瑟 


value="org.springframework.batch.sample.domain.CustomerCredit" /> 
<entry key="credit" value="java.math.BigDecimal" /> 


<entry key="name" value="java.lang.String" /> 


</util:map> 
</property> 
</bean> 


我 们 用 一 段 Java 代 码 来 总 结 所 讨论 的 知识 点 , 并 演示 如 何 通过 代码 手动 设置 所 需 的 属性 : 


StaxEventItemwriter staxItemwriter = new StaxEventItemwriter() 
FileSystemResource resource = new FileSystemResource("data/outputFile. xml") 


Map aliases 
aliases.put("customer", "org.springframework.batch.sample.domain.CustomerCredit"); 
aliases.put("credit","java.math.BigDecimal") ; 


alias 


es.put 


= new HashMap(); 


"name", "java.lang.String"); 


Marshaller marshaller = new XStreamMarshaller(); 
marshaller.setAliases(aliases) ; 


staxI 
staxI 
staxI 
staxI 


Execu 
staxI 


temWri 
temWri 
temwri 
temWri 


tionCo 
temWri 


ter.setResource(resource); 

ter.setMarshaller(marshaller); 
ter.setRootTagName("trades"); 
ter.setOverwriteOutput(true) ; 


ntext executionContext = new ExecutionContext(); 
ter .open(executionContext); 


CustomerCredit Credit = new CustomerCredit(); 


trade 
credi 
staxI 


.SetPr 
t.setn 
temWri 





ice(11.39); 
ame("Customer1") ; 
ter.write(trade); 
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6.8 多 个 数据 输入 文件 


在 单个 Step 中 义理 多 个 输入 文件 是 很 常见 的 需求 。 如 果 这 些 文件 都 有 相同 的 格式 , 则 可 以 使 用 MultiResourceltemReader 
来 进行 处 理 (支持 XML/ 或 纯 文 本 文件 )。 假如 某 个 目录 下 有 如 下 3 个 文件 : 


file-1.txt 
file-2.txt 
ignored. txt 


file-1.txt 和 file-2.txt 具有 相同 的 格式 , 根据 业务 需求 需要 一 起 处 理 . 可 以 通过 MuliResourceltemReader 使 用 通配符 
的 形式 来 读 取 这 两 个 文件 : 


<bean id="multiResourceReader" class="org.spr...MultiResourceItemReader"> 
<property name="resources" value="classpath:data/input/file-*.txt" /> 


<property name="delegate" ref="flatFileItemReader" /> 
</bean> 


delegate 引用 的 是 一 个 简单 的 FlatFileltemReader。 上 面 的 配置 将 会 从 两 个 输入 文件 中 读 取 数据 ,义理 回 滚 以 及 重启 场景 。 
应 该 注意 的 是 ,所 有 ltemReader 在 添加 额外 的 输入 文件 后 (如 本 示例 ), 如 果 重 新 启动 则 可 能 会 导致 某 些 潜在 的 问题 。 官方 建议 
是 每 个 批 作业 义理 独立 的 目录 ,一 直到 成 功 完成 为 止 。 
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6.9 数据 库 (Database) 


和 大 部 分 企业 应 用 一 样 ,数据 库 也 是 批 人 处 理 系 统 存储 数据 的 核心 机 制 。 但 批 处 理 与 其 他 应 用 的 不 同 之 处 在 于 , 批 处 理 系 统一 般 
都 运行 于 大 规模 数据 集 基础 上 。 如 果 一 条 SQL 语句 返回 100 万 行 , 则 结果 集 可 能 全 部 存放 在 内 存 中 m 直 到 所 有 行 全 部 读 完 。 
Spring Batch 提 供 了 两 种 类 型 的 解决 方案 来 处 理 这 个 问题 : 游标 (Cursor) 和 可 分 页 的 数据 库 ltemReaders. 
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6.9.1 基于 Cursor 的 ItemReaders 


使 用 游标 (curson) 是 大 多 数 批 处 理 开 发 人 员 默 认 采 用 的 方法 , 因为 它 是 处 理 有 关系 的 数据 “ 流 " 在 数据 库 级 别 的 解决 方案 。Java 
的 Resultset 类 其 本 质 就 是 用 面向 对 象 的 游标 处 理 机 制 。 ResultSet 维护 着 一 个 指向 当前 数据 行 的 cursor。 调 用 ResultSet 
的 next 方法 则 将 游标 移 到 下 一 行 。 


Spring Batch 基于 cursor 的 ItemReaders 在 初始 化 时 打开 游标 , 每 次 调用 read 时 则 将 游标 向 前 移动 一 行 , 返回 一 个 可 用 于 进 
行 处 理 的 映射 对 象 。 最 好 将 会 调用 close 方法 , 以 确保 所 有 资源 都 被 释放 。 


Spring 的 sdbctemplate 的 解决 办 法 , 是 通过 回调 模式 将 ResultSet 中 所 有 行 映射 之 后 ， 在 返回 调用 方法 前 关闭 结果 集 来 处 理 
的 。 


但 是 ,在 批 处 理 的 时 候 就 不 一 样 了 , 必须 得 等 step 执行 完成 才能 调用 close。 下 图 描绘 了 基于 游标 的 temReader 是 如 何 义理 的 ， 
使 用 的 SQL 语句 非常 简单 , 而 且 都 是 类 似 的 实现 方式 : 


Select * from FOO 


id2 o where id > 1 and id < 7 


bar=bar2 


D [nme [BAR 


name=foo3 


FOO 4 


name=foo4 


这 个 例子 演示 了 基本 的 处 理 模 式 。 数据 库 中 有 一 个 “ Foo " 表 , 它 有 三 个 字段 : ID ，NAME , 以 及 BAR , select 查询 所 有 ID 大 于 1 
但 小 于 7 的 行 。 这 样 的 话 游标 起 始 于 ID 为 2 的 行 (第 1 行 )。 这 一 行 的 结果 会 被 映射 为 一 个 Foo 对 象 。 再 次 调用 read() 则 将 光标 移 
动 到 下 一 行 , 也 就 是 ID 为 3 的 Foo。 在 所 有 行 读 取 完 毕 之 后 这 些 结果 将 会 被 写 出 去 , 然后 这 些 对 象 就 会 被 垃圾 回收 (假设 没有 其 
他 引用 指向 他 们 )。 





译注 




















Foo, Bar 都 是 英文 中 的 任意 代词 ,没有 什么 具体 意义 , 就 如 我 们 说 的 张 三 , 李 四 一 样 











JdbcCursorltemReader 


JdbcCursorltemReader 是 基于 cursor 的 Jdbc 实 现 。 它 直接 使 用 ResultSet， 需 要 从 数据 库 连 接 池 中 获取 连接 来 执行 SQL 语 
句 。 我 们 的 示例 使 用 下 面 的 数据 库 表 


基于 游标 的 ItemReaders 86 


Spring Batch 参 考 文档 中 文 版 





CREATE TABLE CUSTOMER ( 
ID BIGINT IDENTITY PRIMARY KEY, 
NAME VARCHAR(45), 
CREDIT FLOAT 


); 


我 们 一 般 使 用 领域 对 象 来 对 应 到 每 一 行 , 所 以 用 RowMapper 接口 的 实现 来 映射 customercredit 对 象 : 


public class CustomerCreditRowMapper implements RowMapper { 


public static final String ID_COLUMN = "id"; 
public static final String NAME_COLUMN = "name"; 
public static final String CREDIT_COLUMN = "credit"; 


public Object mapRow(ResultSet rs, int rowNum) throws SQLException { 
CustomerCredit customerCredit = new CustomerCredit(); 


customerCredit.setId(rs.getInt(ID_COLUMN) ); 
customerCredit.setName(rs.getString(NAME_COLUMN) ); 
customerCredit.setCredit(rs.getBigDecimal(CREDIT_COLUMN) ); 


return customerCredit; 


一 般 来 说 Spring 的 用 户 对 sdbctemplate 都 不 陌生 ， 而 JdbcCursorltemReader 使 用 其 作为 关键 API 接 口 , 我 们 一 起 来 学 习 如 何 
通过 JdbcTemplate 读 取 这 一 数据 , 看 看 它 与 ItemReader 有 何 区 别 。 为 了 演示 方便 , 我 们 假设 CUSTOMER 表 有 1000 行 数据 。 
第 一 个 例子 将 使 用 JdbcTemplate : 


//For simplicity sake, assume a dataSource has already been obtained 

JdbcTemplate jdbcTemplate = new JdbcTemplate(dataSource) ; 

List customerCredits = jdbcTemplate.query("SELECT ID, NAME, CREDIT from CUSTOMER", 
new CustomerCreditRowMapper()); 


当 执 行 完 上 面 的 代码 , customerCredits 这 个 List 中 将 包含 1000 个 CustomerCredit 对 象 。 在 query 方法 中 , 先 从 
DataSource 获取 一 个 连接 , 然后 用 来 执行 给 定 的 SQL, 获取 结果 后 对 ResultSet 中 的 每 一 行 调 用 一 次 _mapRow 方法 。 让 我 们 
来 对 比 一 下 JdbcCursorltemReader 的 实现 : 


JdbcCursorItemReader itemReader = new JdbcCursorItemReader(); 
itemReader .setDataSource(dataSource); 
itemReader.setSql("SELECT ID, NAME, CREDIT from CUSTOMER"); 
itemReader.setRowMapper (new CustomerCreditRowMapper()); 

int counter = 0; 

ExecutionContext executionContext = new ExecutionContext(); 
itemReader .open(executionContext ) ; 

Object customerCredit = new Object(); 


while(customerCredit != null){ 
customerCredit = itemReader.read(); 
counter++; 

} 


itemReader .close(executionContext) ; 


运行 这 段 代 码 后 counter 的 值 将 变 成 1000。 如 果 上 面 的 代码 将 返回 的 customerCredit MA List, 则 结果 将 和 使 用 
JdbcTemplate 的 例子 完全 一 致 。 但 是 呢 , 使 用 ItemReader 的 强大 优势 在 于 , 它 允 许 数 据 项 变 成 “ 流 式 (streamed)"。 调用 一 
次 read 方法 , 通过 ltemWriter 写 出 数据 对 象 , 然后 再 通过 read 获取 下 一 项 。 这 使 得 item 读 取 和 写 出 可 以 进行 “分 块 
(chunks)”, 并 且 周 期 性 地 提交 , 这 才 是 高 性 能 批 处 理 的 本 质 。 此 外 , 它 可 以 很 容易 地 通过 配置 注入 到 某 个 Spring Batch step 
中 : 


<bean id="itemReader" class="org.spr...JdbcCursorItemReader"> 
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<property name="dataSource" ref="dataSource"/> 
<property name="sql" value="Select ID, NAME, CREDIT from CUSTOMER"/> 
<property name="rowMapper"> 
<bean class="org.springframework.batch.sample.domain.CustomerCreditRowMapper"/> 
</property> 
</bean> 


附加 属性 


因为 在 Java 中 有 很 多 种 不 同 的 方式 来 打开 游标 , 所 以 JdbccustorItemReader 有 许多 可 以 设置 的 属性 : 


需要 整理 











Table 6.2. JdbcCursorltemReader 的 





Th 


= (Properties) 


ignoreWarnings 决定 SQL 警告 SQLWarnings) 是 否 被 日 志 记 录 , 还 是 导致 异常 - 默认 值 为 true 

IE 给 Jdbc driver 一 个 提示 , 当 ItemReader 对 象 需要 从 Resultset 中 获取 更 多 记 
KA, 每 次 应 该 取 多 少 行 数据 . 默认 没有 给 定 hint 值 . 

maxRows 设置 底层 的 Resultset 最 多 可 以 持 有 多 少 行 记录 


设置 driver 在 执行 statement 对 象 时 应 该 在 给 定 的 时 间 ( 单 位 : 秒 ) 内 完成 。 如 
queryTimeout 果 超 过 这 个 时 间 限 制 ,就 抛 出 一 个 DataAccessEception 异常 .( 详 细 信息 请 参考 / 
咨询 具体 数据 库 驱 动 的 相关 文档 ). 


因为 ItemReader 持 有 的 同一 个 Resultset 会 被 传递 给 RowMapper , 所 以 用 户 有 
可 能 会 自己 调用 Resultset.next (), 这 就 有 可 能 会 影响 到 reader 内 部 的 计数 状 


Vem EMS on oston 态 . 将 这 个 值 设置 为 true 时 ， 如 果 在 调用 Rowmapper 前 后 游标 位 置 (cursor 
position) 不 一 致 ,就 会 抛 出 一 个 异常 . 
A bem J 状 太 星 下 应 3; P 
G 明确 指定 reader 的 状态 是 否 应 该 保存 在 Itemstream#update ( ExecutionContext ) 


提供 的 Executioncontext 中 ， 默认 值 为 true. 


默认 值 为 false. 指明 Jdbc 驱动 是 否 支 持 在 Resultset 中 设置 绝对 行 (absolute 
driverSupportsAbsolute row). 官方 建议 ,对 于 支持 Resultset absolute () 的 Jdbc drivers， 应 该 设置 为 
true, 一 般 能 提高 效率 和 性 能 ， 特 别 是 在 某 个 step 义理 很 大 的 数据 集 失败 时 . 


默认 值 为 false. 指明 此 cursor 使 用 的 数据 库 连 接 是 否 和 其 他 义理 过 程 共享 连 
接 ， 以 便 处 于 同一 个 事务 中 . 如 果 设 置 为 false, 也 就 是 默认 值 , 那么 游标 会 打开 
自己 的 数据 库 连 接 ， 也 就 不 会 参与 到 step 义理 中 的 其 他 事务 . 如 果 要 将 标志 位 
设置 为 true, 则 必须 将 Datasource 包装 在 一 个 

setUseSharedExtendedConnection ExtendedConnectionDataSourceProxy 中 ， 以 阻止 每 次 提交 之 后 关闭 /释放 连接 . 
如 果 此 选项 设置 为 true , 则 打开 cursor 的 语句 将 会 自动 带 上 'READ_ONLY' 和 
'HOLD_CUSORS_OVER_COMMIT' 选项 . 这 样 就 允许 在 step 处 理 过 程 中 保持 
cursor 跨越 多 个 事务 . 要 使 用 这 个 特性 ,需要 数据 库 服务 器 的 支持 ， 以 及 JDBC 
驱动 符合 Jdbc 3.0 版 本 规范 . 


HibernateCursorltemReader 


使 用 Spring 的 程序 员 需 要 作出 一 个 重要 的 决策 ， 即 是 否 使 用 ORM 解 决 方案 ,这 决定 了 是 否 使 用 JdbcTemplate 或 
HibernateTemplate , Spring Batch 开 发 者 也 面临 同样 的 选择 。HibernateCursorltemReader Æ Hibernate 的 游标 实现 。 HX 
在 批 你 理 中 使 用 Hibernate 那 是 相当 有 争议。 这 很 大 程度 上 是 因为 Hibernate 最 初 就 是 设计 了 用 来 开发 在 线程 序 的 。 


但 也 不 是 说 Hibernate 就 不 能 用 来 进行 批 处 理 。 最 简单 的 解决 办 法 就 是 使 用 一 个 StatelessSession (无 状态 会 话 ), 而 不 使 用 标 
XE session 。 这 样 就 去 掉 了 在 批 处 理 场景 中 Hibernate 那些 恼人 的 缓存 、 脏 检查 等 等 。 


更 多 无 状态 会 话 与 正常 hibernate 会 话 之 间 的 差异 , 请 参考 你 使 用 的 hibernate 版 本 对 应 的 文档 。 
HibernateCursorltemReader 人 允许 您 声明 一 个 HQL 语 句 , 并 传人 SessionFactory , 然后 每 次 调用 read 时 就 会 返回 一 个 对 
象 ， 和 JdbcCursorltemReader 一 样 。 下 面 的 示例 配置 也 使 用 和 JDBC reader 相同 的 数据 库 表 : 


HibernateCursorItemReader itemReader = new HibernateCursorItemReader(); 
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itemReader .setQueryString("from CustomerCredit") ; 

//For simplicity sake, assume sessionFactory already obtained. 
itemReader .setSessionFactory(sessionFactory) ; 

itemReader .setUseStatelessSession(true); 

int counter = 0; 

ExecutionContext executionContext = new ExecutionContext(); 
itemReader .open(executionContext ) ; 

Object customerCredit = new Object(); 


while(customerCredit != null){ 
customerCredit = itemReader.read(); 
counter++; 

} 


itemReader .close(executionContext) ; 


这 里 配置 的 llemReader 将 以 完全 相同 的 方式 返回 CustomerCredit 对 象 ， 和 JdbcCursorltemReader 没有 区 别 , 如 果 
hibernate 映射 文件 正确 的 话 。 usestatelesssession 属性 的 默认 值 为 true ， 这 里 明确 设置 的 目的 只 是 为 了 引起 你 的 注意 ,我 
们 可 以 通过 他 来 进行 切换 。 还 值得 注意 的 是 可 以 通过 setFetchsize 设置 底层 cursor 的 fetchsize Blt. & 
JdbcCursorltemReader 一 样 ,配置 很 简单 : 





<bean id="itemReader" 
class="org.springframework.batch.item.database.HibernateCursorItemReader"> 
<property name="sessionFactory" ref="sessionFactory" /> 
<property name="queryString" value="from CustomerCredit" /> 
</bean> 


StoredProcedureltemReader 


有 时 候 使 用 存储 过 程 来 获取 游标 数据 是 很 有 必要 的 。 StoredProcedureltemReader 和 JdbcCursoritemReader 其 实 差 不 
多 ， 只 是 不 再 执行 一 个 查询 来 获取 游标 ， 而 是 执行 一 个 存储 过 程 , 由 存储 过 程 返 回 一 个 游标 。 存储 过 程 有 三 种 返回 游标 的 方 
式 : 


1. 作为 一 个 ResultSet 返回 (SQL Server, Sybase, DB2, Derby 以 及 MySQL 支 持 ) 
2. 作为 一 个 out 参数 返回 ref-cursor (Oracle 和 PostgreSQL 使 用 这 种 方式 ) 
3. 作为 存储 画 数 (stored function) 的 返回 值 


下 面 是 一 个 基本 的 配置 示例 , 还 是 使 用 上 面 “客户 信用 " 的 例子 ; 


<bean id="reader" class="0.s.batch.item.database.StoredProcedureItemReader"> 
<property name="dataSource" ref="dataSource"/> 
<property name="procedureName" value="sp_customer_credit"/> 
<property name="rowMapper"> 
<bean class="org.springframework.batch.sample.domain.CustomerCreditRowMapper"/> 
</property> 
</bean> 


这 个 例子 依赖 于 存储 过 程 提 供 一 个 ResultSet 作为 返回 结果 (方式 1)。 


如 果 存 储 过 程 返 回 一 个 ref-cursor( 方 式 2), 那 么 我 们 就 需要 提供 返回 的 ref-cursor(out 参数 ) 的 位 置 。 下 面 的 示例 中 ,第 一 个 参数 
是 返回 的 ref-cursor: 


<bean id="reader" class="0.s.batch.item.database.StoredProcedureItemReader"> 
<property name="dataSource" ref="dataSource"/> 
<property name="procedureName" value="sp_customer_credit"/> 
<property name="refCursorPosition" value="1"/> 
<property name="rowMapper"> 
<bean class="org.springframework.batch.sample.domain.CustomerCreditRowMapper"/> 
</property> 
</bean> 
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如 果 存 储 函 数 的 返回 值 是 一 个 游标 (方式 3), 则 需要 将 function 属性 设置 为 true , 默认 为 false 。 如 下 面 所 示 : 


<bean id="reader" class="0.s.batch.item.database.StoredProcedureItemReader"> 
<property name="dataSource" ref="dataSource"/> 
<property name="procedureName" value="sp_customer_credit"/> 
<property name="function" value="true"/> 
<property name="rowMapper"> 
<bean class="org.springframework.batch.sample.domain.CustomerCreditRowMapper"/> 
</property> 
</bean> 


在 所 有 情况 下 ,我 们 都 需要 定义 RowMapper 以 及 DataSource, 还 有 存储 过 程 的 名 字 。 


如 果 存 储 过 程 / 辑 数 需要 传 入 参数 , 那么 必须 声明 并 通过 parameters 属性 来 设置 值 。 下 面 是 一 个 关于 Oracle 的 示例 , 其 中 声明 


了 三 个 参数 。 第 一 个 是 out 参数 ,用 来 返回 ref-cursor, 第 二 第 三 个 参数 是 in HSM, 类 型 都 是 INTEGER : 


<bean id="reader" class="0.s.batch.item.database.StoredProcedureItemReader"> 
<property name="dataSource" ref="dataSource"/> 
<property name="procedureName" value="sSpring.cursor_func"/> 
<property name="parameters"> 
<list> 
<bean class="org.springframework.jdbc.core.SqloOutParameter"> 
<constructor-arg index="0" value="newid"/> 
<constructor-arg index="1"> 
<util:constant static-fiel 
</constructor-arg> 
</bean> 
<bean class="org.springframework.jdbc.core.SqlParameter'"> 
<constructor-arg index="0" value="amount"/> 
<constructor-arg index="1"> 
<util:constant static-fiel 
</constructor-arg> 
</bean> 
<bean class="org.springframework.jdbc.core.SqlParameter'"> 
<constructor-arg index="0" value="custid"/> 
<constructor-arg index="1"> 
<util:constant static-fiel 
</constructor-arg> 
</bean> 
</list> 
</property> 
<property name="refCursorPosition" value="1"/> 
<property name="rowMapper" ref="rowMapper'"/> 
<property name="preparedStatementSetter" ref="parameterSetter"/> 
</bean> 


d="oracle.jdbc.OracleTypes.CURSOR"/> 


d="java.sql.Types.INTEGER"/> 





d="java.sql.Types.INTEGER"/> 


除了 参数 声明 , 我 们 还 需要 指定 一 个 Preparedstatementsetter 实现 来 设置 参数 值 。 这 和 上 面 的 JdbcCursorltemReader 一 
样 。 查 看 全 部 附加 属性 请 查看 附加 属性 , StoredProcedureltemReader 的 附加 属性 也 一 样 。 
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6.9.2 可 分 页 的 ItemReader 


另 一 种 是 使 用 数据 库 游标 执行 多 次 查询 ,每 次 查询 只 返回 一 部 分 结果 。 我 们 将 这 一 部 分 称 为 一 页 (a page) 分 页 时 每 次 查询 必 
须 指定 想 要 这 一 页 的 起 始 行 号 和 想 要 返回 的 行 数 。 


JdbcPagingltemReader 


分 页 ltemReader 的 一 个 实现 是 JdbcPagingItemReader o JdbcPagingItemReader 需要 一 个 PagingQueryProvider 来 负责 提 
共 获取 每 一 页 所 需 的 查询 SQL。 由 于 每 个 数据 库 都 有 不 同 的 分 页 策略 , 所 以 我 们 需要 为 各 种 数据 库 使 用 对 应 的 
PagingQueryProvider > 也 有 自动 检测 所 使 用 数据 库 类 型 的 sqlpagingQueryProviderFactoryBean ,会 根据 数据 库 类 型 选用 适当 
的 PagingQueryProvider 实现 。 这 简化 了 配置 ,同时 也 是 推荐 的 最 佳 实践 。 


SqlPagingQueryProviderFactoryBean 需要 指定 一 个 select 子 句 以 及 一 个 from 子 句 (clause). 当然 还 可 以 选择 提供 where 
子 句 . 这 些 子 句 加 上 所 需 的 排序 列 sortKey 被 组 合成 为 一 个 SQL 语句 (statement). 


在 reader 被 打开 以 后 , 每 次 调用 read 方法 则 返回 一 个 item, 和 其 他 的 ItemReader 一 样 . 使 用 分 页 是 因为 可 能 需要 额外 的 行 . 


下 面 是 一 个 类 似 ‘customer credit’ 示例 的 例子 ,使 用 上 面 提 到 的 基于 cursor 的 ltemReaders: 


<bean id="itemReader" class="org.spr...JdbcPagingItemReader"> 
<property name="dataSource" ref="dataSource"/> 
<property name="queryProvider"> 
<bean class="org.spr...SqlPagingQueryProviderFactoryBean"> 
<property name="selectClause" value="select id, name, credit"/> 
<property name="fromClause" value="from customer"/> 
<property name="whereClause" value="where status=:status"/> 
<property name="sortKey" value="id"/> 
</bean> 
</property> 
<property name="parameterValues"> 
<map> 
<entry key="status" value="NEW"/> 
</map> 
</property> 
<property name="pageSize" value="1000"/> 
<property name="rowMapper" ref="customerMapper"/> 
</bean> 


这 里 配置 的 ltemReader 将 返回 CustomerCredit 对 象 , 必须 指定 使 用 的 RowMapper。' pageSize ' 属 性 决定 了 每 次 数据 库 查 询 返 
回 的 实体 数量 。 


' parameterValues ' 属 性 可 用 来 为 查询 指定 参数 映射 map。 如 果 在 where 子 句 中 使 用 了 命名 参数 ,那么 这 些 entry 的 key 应 该 和 命名 
参数 一 一 对 应 。 如 果 使 用 传统 的 '?' 占 位 符 , 则 每 个 entry 的 key 就 应 该 是 占 位 符 的 数字 编号 ,和 JDBC 占 位 符 一 样 索 引 都 是 从 1 开 
始 。 


JpaPagingltemReader 


另 一 个 分 页 ltemReader 的 实现 是 JpaPagingItemReader 。JPA 没 有 Hibernate 中 StatelessSession 之 类 的 概念 ,所 以 我 们 必须 使 
用 JPA 规 范 提供 的 其 他 功能 。 因 为 JPA 支 持 分 页 ,所 以 在 使 用 JPA 来 处 理 分 页 时 这 是 一 种 很 自然 的 选择 。 读 取 每 页 后 , 实体 将 会 
分 离 而 且 持久 化 上 下 文 将 会 被 清除 ,以 允许 在 页 面 处 理 完成 后 实体 会 被 垃圾 回收 。 


JpaPagingltemReader 允许 您 声明 一 个 JPQL 语 句 ,并 传人 一 个 EntityManagerFactory 。 然 后 就 和 其 他 的 ItemReader 一 
样 ,每 次 调用 它 的 read 方法 都 会 返回 一 个 item. 当 需 要 更 多 实体 , 则 内 部 就 会 自动 发 生 分 页 。 下 面 是 一 个 示例 配置 ,和 上 面 的 
JDBC reader 一 样 ,都 是 'customer credit : 


<bean id="itemReader" class="org.spr...JpaPagingItemReader"> 
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<property name="entityManagerFactory" ref="entityManagerFactory"/> 
<property name="queryString" value="select c from CustomerCredit c"/> 
<property name="pageSize" value="1000"/> 

</bean> 


这 里 配置 的 ltemReader 和 前 面 所 说 的 JdbcPagingltemReader 返回 一 样 的 CustomerCreditst R, 假设 Customer 对 象 有 正确 
的 JPA 注 解 或 者 ORM 了 映射 文件 。 ' pagesize ' 属性 决定 了 每 次 查询 时 读 取 的 实体 数量 。 


IbatisPagingltemReader 


[Note] 注意 事项 





这 个 reader 在 Spring Batch 3.0 中 已 经 被 废弃 (deprecated). 


如 果 使 用 IBATIS/MyBatis, 则 可 以 使 用 lbatisPagingltemReader, 顾名思义 , 也 是 一 种 实现 分 页 的 ItemReader。1IBATIS 不 对 分 
页 提供 直接 支持 , 但 通过 提供 一 些 标准 变量 就 可 以 为 IBATIS 查 询 提供 分 页 支持 。 


下 面 是 和 上 面 的 示例 同样 功能 的 配置 ,使 用 lbatisPagingltemReader 来 读 取 CustomerCredits: 


<bean id="itemReader" class="org.spr...IbatispagingItemReader"> 
<property name="sqlMapClient" ref="sqlMapClient"/> 
<property name="queryId" value="getPagedCustomerCredits"/> 
<property name="pageSize" value="1000"/> 

</bean> 


£38 IbatisPagingltemReader 配置 引用 了 一 个 IBATIS 查 询 ,名 为 “getPagedCustomerCredits”"。 如 果 使 用 MySQL, 那 么 查询 
XML 应 该 类 似 于 下 面 这 样 。 


<select id="getPagedCustomerCredits" resultMap="CustomerCreditResult"> 
select id, name, credit from customer order by id asc LIMIT #_skiprows#, #_pagesize# 
</select> 


_skiprows 和 _pagesize 变量 都 是 IbatisPagingltemReader 提供 的 ,还 有 一 个 page 变量 ,需要 时 也 可 以 使 用 。 分 页 查询 的 语 
法 根据 数据 库 不 同 使 用 。 下 面 是 使 用 Oracle 的 一 个 例子 (但 我 们 需要 使 用 CDATA 来 包装 某 些 特殊 符号 ,因为 是 放 在 XML 文 档 中 
嘛 ): 


<select id="getPagedCustomerCredits" resultMap="CustomerCreditResult"> 
select * from ( 
select * from ( 
select t.id, t.name, t.credit, ROWNUM ROWNUM_ from customer t order by id 
)) where ROWNUM_ <![CDATA[ > ]]> ( #_page# * #_pagesize# ) 
) where ROWNUM <![CDATA[ <= ]]> #_pagesize# 
</select> 
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6.9.3 Database ItemWriters 


虽然 文本 文件 和 XML 都 有 自己 特定 的 itemWriten 但 数据 库 和 他 们 并 不 一 样 。 这 是 因为 事务 提供 了 所 需 的 全 部 功能 。 对 于 文 
件 来 说 ItemWriters 是 必要 的 , 因为 如 果 需 要 事务 特性 ,他 们 必须 充当 这 种 角色 , 跟踪 输出 的 item, 并 在 适当 的 时 间 
flushing/clearing。 使 用 数据 库 时 不 需要 这 个 功能 ,因为 写 已 经 包含 在 事务 之 中 。 用 户 可 以 自己 创建 实现 ItemWriter 接 口 的 
DAO, 或 使 用 一 个 处 理 常 见 问 题 的 自 定义 ItemWriter, 无 论 哪 种 方式 ,都 不 会 有 任何 问题 。 需要 注意 的 一 件 事 是 批量 输出 时 的 性 
能 和 错误 处 理 能 力 。 在 使 用 hibernate 作 为 temWriter 时 是 最 常见 的 , 但 在 使 用 Jdbc batch 模式 时 可 能 也 会 存在 同样 的 问题 。 
批 处 理 数据 库 输出 没有 任何 固有 的 缺陷 ,如 果 我 们 注意 flush 并 且 数 据 没 有 错误 的 话 。 但 是 ,在 写 出 时 如 果 发 生 了 什么 错误 ,就 
可 能 会 引起 混乱 ,因为 没有 办 法 知道 是 哪个 item 引 起 的 异常 , 甚至 是 否 某 个 单独 的 item 负 有 责任 ,如 下 图 所 示 : 


executel) 
一 一 






writetitems) 





rollbackt} 






如 果 items 在 输出 之 前 有 缓冲 , 则 遇 到 任何 错误 将 不 会 立刻 抛 出 , 直到 缓冲 区 刷新 之 后 ,提交 之 前 才 会 抛 出 。 例 如 , 我 们 假设 每 
一 块 写 出 20 个 item, 第 15 个 item SHIH pataIntegrityviolationException 。 如 果 与 Step AX, 则 20 项 数据 都 会 宇和 人 成功， 
为 没有 办 法 知道 会 出 现 错误 ,直到 全 部 写 入 完成 。 一 旦 调用 Session#flush()， 就 会 清空 缓冲 区 buffen 而 异常 也 将 被 放出 来 。 
在 这 一 点 上 , Step 无 能 为 力 , 事务 也 必须 回 滚 。 通常 , 异常 会 导致 tem 被 跳 过 (取决 于 skip/retry 策略 ), 然后 该 iem 就 不 会 被 输 
出 。 然而 ,在 批 处 理 的 情况 下 , 是 没有 办 法 知道 到 底 是 哪 一 项 引起 的 问题 , 在 错误 发 生 时 整个 缓冲 区 都 将 被 写 出 。 解 决 这 个 问 
题 的 唯一 方法 就 是 在 每 一 个 item 之 后 flush 一 下 : 


数据 库 ItemWriters 93 


Spring Batch 参 考 文 档 中 文 版 








executel) 
一 一 


vritetitem) 


writefitem) 


rollback(} 


这 种 用 法 是 很 常见 的 , 尤其 是 在 使 用 Hibernate 时 ,ltemWriter 的 简单 实现 建议 , 在 每 次 调用 write) 之 后 执行 flush。 这 样 做 可 以 
让 跳 过 items 变 得 可 靠 , 而 Spring Batch 在 错误 发 生 后 会 在 内 部 关注 适当 粒度 的 ltemWriter 调 用 。 
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6.10 重用 已 存在 的 Service 


批 匀 理 系统 通常 是 与 其 他 应 用 程序 相 结 合 的 方式 使 用 。 最 常见 的 是 与 一 个 在 线 应 用 系统 结合 , 但 也 支持 与 瘦 客 户 端 集成 ,通过 
移动 每 个 程序 所 使 用 的 批量 数据 。 由 于 这 些 原因 ,所 以 很 多 用 户 想 要 在 批 你 理 作业 中 重用 现 有 的 DAO 或 其 他 服务 。Spring 容 器 
通过 注入 一 些 必 要 的 类 就 可 以 实现 这 些 重用 。 但 可 能 需要 现 有 的 服务 作为 ltemReader 或 者 ltemWriter, 也 可 以 适 配 另 一 个 
Spring Batch 类 , 或 其 本 身 就 是 一 个 step 主要 的 ItemReader。 为 每 个 需要 包装 的 服务 编写 一 个 适配器 类 是 很 简单 的 , 而 因为 
这 是 很 普 逗 的 需求 ,所 以 Spring Batch 提供 了 实现 : ItemReaderAdapter 和 ItemwriterAdapter 。 两 个 类 都 实现 了 标准 的 Spring 
方法 委托 模式 调用 ， 设 置 也 相当 简单 。 下 面 是 一 个 reader 的 示例 : 


<bean id="itemReader" class="org.springframework.batch.item.adapter .ItemReaderAdapter"> 
<property name="targetObject" ref="fooService" /> 
<property name="targetMethod" value="generateFoo" /> 

</bean> 


<bean id="fooService" class="org.springframework.batch.item.sample.FooService" /> 


特别 需要 注意 的 是 ，targetMethod 必须 和 read 方法 行为 对 等 : 如 果 不 存在 则 返回 null, 否则 返回 一 个 Object。 其 他 的 值 会 使 
框架 不 知道 何 时 该 结束 义理 , 或 者 引起 无 限 循环 或 不 正确 的 失败 ,这 取决 于 ltemWriter 的 实现 。 ItemWriter 的 实现 同样 简单 : 


<bean id="itemwriter" class="org.springframework.batch.item.adapter.ItemwriterAdapter"> 
<property name="targetObject" ref="fooService" /> 
<property name="targetMethod" value="processFoo" /> 

</bean> 


<bean id="fooService" class="org.springframework.batch.item.sample.FooService" /> 
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6.11 输入 校 验 


在 本 章 中 , 已 经 讨论 了 很 多 种 用 来 解析 input 的 方法 。 如 果 格 式 不 对 , 那 这 些 基本 的 实现 都 是 抛 出 异常 。 如 果 数 据 丢失 一 部 分 ， 
FixedLengthTokenizer 也 会 抛 出 异常 。 同样 , 使 用 FieldSetMapper 时 ,如 果 读 取 超 出 RowMapper 索引 范围 的 值 ,又 或 者 返 
回 值 类 型 不 匹配 ,都 会 抛 出 异常 。 所 有 的 异常 都 会 在 read 返回 之 前 抛 出 。 然而 , 他 们 不 能 确定 返回 的 item 是 否 是 合法 的 。 例 
如 , 如 果 其 中 一 个 字段 是 age ,很 显然 不 能 是 负数 。 解析 为 数字 是 没 问 题 的 , 因为 确实 存在 这 个 数 , 所 以 就 不 会 抛 出 异常 。 
为 当下 已 经 有 大 量 的 第 三 方 验证 框架 , 所 以 Spring Batch 并 不 提供 另 一 个 验证 框架 , 而 是 提供 了 一 个 非常 简单 的 接口 , 其 他 框 

架 可 以 实现 这 个 接口 来 提供 兼容 : 


public interface Validator { 


void validate(Object value) throws ValidationException; 


The contract is that the validate method will throw an exception if the object is invalid, and return normally if it is valid. 
Spring Batch provides an out of the box ItemProcessor: 


约定 是 如 果 对 象 无 效 则 validate 方法 抛 出 一 个 异常 , 如 果 对 象 合 法 那 就 正常 返回 。 Spring Batch 提供 了 开 箱 即 用 的 
ItemProcessor: 


<bean class="org.springframework.batch.item.validator.ValidatingItemProcessor"> 
<property name="validator" ref="validator" /> 
</bean> 


<bean id="validator" 
class="org.springframework.batch.item. validator .SpringValidator'"> 
<property name="validator"> 
<bean id="orderValidator" 
class="org.springmodules.validation.valang.ValangValidator"> 
<property name="valang"> 


<value> 
<! [CDATA[ 
{ orderId : ? > © AND ? <= 9999999999 : 'Incorrect order ID' : ‘error.order.id' } 
{ totalLines : ? = size(lineItems) : 'Bad count of order lines' 
‘error.order.lines.badcount '} 
{ 


customer.registered : customer.businessCustomer = FALSE OR ? = TRUE 
: 'Business customer must be registered' 
: 'error.customer.registration'} 
customer.companyName : customer.businessCustomer = FALSE OR ? HAS TEXT 
‘Company name for business customer is mandatory' 
:'error.customer.companyname' } 


~ 


INS 
</value> 
</property> 
</bean> 
</property> 
</bean> 


这 个 示例 展示 了 一 个 简单 的 ValangValidator, 用 来 校 验 order 对 象 。 这 样 写 目的 是 为 了 
添加 校 验 程序 。 


pi 


可 能 多 地 演示 如 何 使 用 Valang 来 
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6.12 不 保存 执行 状态 


默认 情况 下 ,所 有 ItemReader 和 ItemWriter 在 提交 之 前 都 会 把 当前 状态 信息 保存 到 ExecutionContext 中 。 但 有 时 我 们 又 
不 希望 保存 这 些 信息 。 例如 ,许多 开发 者 使 用 处 理 指示 器 (process indicator) 让 数据 库 读 取 程序 ' 可 重复 运行 (rerunnable)'。 在 
数据 表 中 添加 一 个 附加 列 来 标识 该 记录 是 否 已 被 处 理 。 当 某 条 记录 被 读 取 / 写 入 时 ,就 将 标志 位 从 false ZA true, 然后 只 要 
在 SQL 语句 的 where 子 句 中 包含 一 个 附加 条 件 , 如 " where PROCESSED_IND = false", 就 可 确保 在 任务 重启 后 只 查询 到 未 义理 过 的 
记录 。 这 种 情况 下 ,就 不 需要 保存 任何 状态 信息 , 比如 当前 row number 什么 的 , 因为 在 重启 后 这 些 信息 都 没 用 了 。 基于 这 种 
考虑 , 所 有 的 readers 和 writers 都 含有 一 个 savestate 属性 : 


<bean id="playerSummarizationSource" class="org.spr...JdbcCursorItemReader"> 
<property name="dataSource" ref="dataSource" /> 
<property name="rowMapper"> 
<bean class="org.springframework.batch.sample.PlayerSummaryMapper" /> 
</property> 
<property name="saveState" value="false" /> 
<property name="sql"> 
<value> 
SELECT games.player_id, games.year_no, SUM(COMPLETES), 
SUM(ATTEMPTS), SUM(PASSING_YARDS), SUM(PASSING_TD), 
SUM( INTERCEPTIONS), SUM(RUSHES), SUM(RUSH_YARDS), 
SUM(RECEPTIONS), SUM(RECEPTIONS_YARDS), SUM(TOTAL_TD) 
from games, players where players.player_id = 
games.player_id group by games.player_id, games.year_no 
</value> 
</property> 
</bean> 


上 面 配置 的 这 个 ItemReader 在 任何 情况 下 都 不 会 将 entries (状态 信息 ) 存放 到 ExecutionContext 中 . 
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6.13 创建 自 定 义 ItemReaders 与 ItemWriters 





到 目前 为 止 ,本 章 已 将 Spring Batch 中 基本 的 读 取 (reading) 和 写 入 (writing) 概 念 讲 完 , 还 对 一 些 常用 的 实现 进行 了 讨论 。 然 而 ， 


这 些 都 是 相当 普通 的 , 还 有 很 多 潜在 的 场景 可 能 没有 现成 的 实现 。 本 节 将 通过 


-NA 
| 间 


单 的 例子 ,来 演示 如 何 创建 自 定义 


的 ItemReader 和 Itemwriter ,并 且 如 何 正确 地 实现 和 使 用 。 ItemReader 同时 也 将 rtemstream , 以 说 明 如 何 让 reader( 读 取 器 ) 


或 writer( 写 入 器 ) 支 持 重启 (restartable)。 


自 定义 ItemReaders 和 ItemWriters 
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6.13.1 自 定义 ItemReader 示例 


为 了 实现 这 个 目的 ,我 们 实现 一 个 简单 的 ItemReader , 从 给 定 的 list 中 读 取 数 据 。 我 们 将 实现 最 基本 的 ItemReader 功能 , read: 


public class CustomItemReader<T> implements ItemReader<T>{ 
List<T> items; 


public CustomItemReader(List<T> items) { 
this.items = items; 


} 


public T read() throws Exception, UnexpectedInputException, 
NoWorkFoundException, ParseException { 


if (!items.isEmpty()) { 
return items.remove(0); 


} 


return null; 


这 是 一 个 简单 的 类 , 传 入 一 个 items list, 每 次 读 取 时 删除 其 中 的 一 条 并 返回 。 如 果 list 里 面 没有 内 容 , 则 将 返回 null, 从 而 满足 
ItemReader 的 基本 要 求 , 测试 代码 如 下 所 示 : 


List<String> items = new ArrayList<String>(); 
items.add("1"); 
items.add("2"); 
items.add("3"); 


ItemReader itemReader = new CustomItemReader<String>(items) ; 
assertEquals("1", itemReader.read()); 

assertEquals("2", itemReader.read()); 

assertEquals("3", itemReader.read()); 
assertNull(itemReader.read()); 


使 ItemReader 支持 重 B 


现在 剩 下 的 问题 就 是 让 ItemReader 变 为 可 重启 的 。 到 目前 这 一 步 ,如 果 发 生 掉 电 之 类 的 情况 ,那么 必须 重新 启动 ItemReader, 
而 且 是 从 头 开始 。 在 很 多 时 候 这 是 允许 的 ,但 有 时 候 更 好 的 处 理 办 法 是 让 批 处 理 作 业 在 上 次 中 断 的 地 方 重新 开始 。 判 断 的 关键 


是 根据 reader 是 有 状态 的 还 是 无 状态 的 。 无 状态 的 reader 不 需要 考虑 重 馈 的 情况 , 但 有 状态 的 则 需要 根据 其 最 后 一 个 已 知 
的 状态 来 重新 启动 。 出 于 这 些 原因 , 官方 建议 尽 可 能 地 让 reader 成 为 无 状态 的 ,使 开发 者 不 需要 考虑 重新 启动 的 情况 。 


如 果 需 要 保存 状态 信息 , 那 应 该 使 用 Itemstream 接口 : 


public class CustomItemReader<T> implements ItemReader<T>, ItemStream { 


List<T> items; 
int currentIndex = 0; 
private static final String CURRENT_INDEX = "current.index"; 


public CustomItemReader(List<T> items) { 
this.items = items; 


} 


public T read() throws Exception, UnexpectedInputException, 
ParseException { 


if (currentIndex < items.size()) { 
return items.get(currentIndex++) ; 


外 
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return null; 


i 


public void open(ExecutionContext executionContext) throws ItemStreamException { 
if (executionContext.containsKey (CURRENT_INDEX) ){ 
currentIndex = new Long(executionContext.getLong(CURRENT_INDEX) ).intValue(); 


} 
else{ 

currentIndex = 0; 
i 


} 

public void update(ExecutionContext executionContext) throws ItemStreamException { 
executionContext .putLong(CURRENT_INDEX, new Long(currentIndex) .longValue()); 

} 


public void close() throws ItemStreamException {} 


每 次 调用 ItemStream 的 update 方法 时 , ItemReader 的 当前 index 都 会 被 保存 到 给 定 的 ExecutionContext 中 ,key 为 





‘current.index', 当 调 用 ItemStream 的 open 方法 时 , ExecutionContext 会 检查 是 否 包含 该 key 对 应 的 条 目 。 
key, 那么 当前 索引 index 就 好 移动 到 该 位 置 。 这 是 一 个 相当 简单 的 例子 ,但 它 仍然 符合 通用 原则 : 


ExecutionContext executionContext = new ExecutionContext(); 
((ItemStream)itemReader ).open(executionContext) ; 
assertEquals("1", itemReader.read()); 
((ItemStream)itemReader ).update(executionContext ); 


List<String> items = new ArrayList<String>(); 
items.add("1"); 

items.add("2"); 

items.add("3"); 

itemReader = new CustomItemReader<String>(items) ; 


((ItemStream)itemReader ) .open(executionContext) ; 
assertEquals("2", itemReader.read()); 


如 果 找 到 


大 多 数 ltemReaders 具 有 更 加 复杂 的 重启 逻辑 。 例如 JdbcCursorltemReader , 存储 了 游标 (Cursor) 中 最 后 所 处 理 的 行 的 


row id。 


ae 


还 值得 注意 的 是 ExecutionContext 中 使 用 的 key 不 应 该 过 于 简单 。 这 是 因为 ExecutionContext 被 一 个 step 中 的 所 有 
ltemStreams 共用 。 在 大 多 数 情况 下 ,使 用 类 名 加 上 key 的 方式 应 该 就 足以 保证 唯一 性 。 然 而 ,在 极端 情况 下 , 同一 个 类 的 多 个 
ItemStream 被 用 在 同一 个 Step 中 时 ( 如 需要 输出 两 个 文件 的 情况 ), 就 需要 更 加 具备 唯一 性 的 name 标 识 。 出 于 这 个 原因 ,Spring 


Batch 的 许多 ItemReader 和 Itemwriter 实现 都 有 一 个 setname() 方法 , 允许 覆盖 默认 的 key name, 
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6.13.2 自 定 义 ItemWriter 示例 


自 定义 实现 Itemwriter 和 上 一 小 节 所 讲 的 ItemReader 有 很 多 方面 是 类 似 , 但 也 有 足够 多 的 不 同 之 处 。 但 增加 可 重启 特性 在 
本 质 上 是 一 样 的 , 所 以 本 节 的 示例 就 不 再 讨论 这 一 点 。 和 ItemReader 示例 一 样 ,为 了 简单 我 们 使 用 的 参数 也 是 List: 


public class CustomItemwriter<T> implements Itemwriter<T> { 
List<T> output = TransactionAwareProxyFactory.createTransactionalList(); 


public void write(List<? extends T> items) throws Exception { 
output.addAll(items); 
} 


public List<T> getOutput() { 
return output; 


} 


jk Itemwriter 支持 重新 启动 


要 让 Itemwriter 支持 重新 和 启动， 我 们 将 会 使 用 和 ItemReader 相同 的 过 程 , 实现 并 添加 Itemstream 接口 来 同步 execution 
context, 在 示例 子 中 我 们 可 能 要 记录 处 理 过 的 items 数 量 ,并 添加 为 到 footer 记录 。 我 们 可 以 在 Itemwriter 的 实现 类 中 同时 
实现 Itemstream , 以 便 在 stream 重新 打开 时 从 执行 上 下 文中 取 回 原来 的 数据 重建 计数 器 。 


实际 开发 中 , 如 果 自 定义 ltemWriter restartable( 支 持 重 启 ), 则 会 委托 另 一 个 writer( 例 如 , ESATA), 否则 会 宇 入 到 关系 型 
数据 库 (支持 事务 的 资源 ) 中 , 此 时 ltemWriter 不 需要 restartable 特 性 ,因为 自身 是 无 状态 的 。 如 果 你 的 writer 有 状态 , 则 应 该 实 
现 2 个 接口 : Itemstream 和 Itemwriter 。 请 记 住 , writer 客 户 端 需要 知道 /temStream 的 存在 , 所 以 需要 在 xml 配置 文件 中 将 其 
注册 为 stream. 
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7. 扩 展 与 并 行 义理 


很 多 批 处 理 问题 都 可 以 通过 单 进 程 、 单 线程 的 工作 模式 来 完成 , 所 以 在 想 要 做 一 个 复杂 设计 和 实现 之 前 ,请 审查 你 是 否 真 的 需 
要 那些 超级 复杂 的 实现 。 衡量 实际 作业 (job) 的 性 能 ,看 看 最 简单 的 实现 是 否 能 满足 需求 : 即便 是 最 普通 的 硬件 ,也 可 以 在 一 分 钟 
内 读 写 上 百 MB 数 据 文件 。 


当 你 准备 使 用 并 行 处 理 技术 来 实现 批 处 理 作 业 时 ,Spring Batch 提 供 一 系列 选择 ,本 章 将 对 他 们 进行 讲述 ,虽然 某 些 功能 不 在 本 章 
中 涵盖 。 从 高 层次 的 抽象 角度 看 ， 并 行 处 理 有 两 种 模式 : 单 进程 ,多 线程 模式 ; 或 者 多 进程 模式 。 还 可 以 将 他 分 成 下 面 这 些 种 
eo 多 线程 Step( 单 个 进程 ) 

e 并 行 Steps( 单 个 进程 ) 

© 远程 分 块 Step( 多 个 进程 ) 

e 对 Step 分 区 ( 单 /多 个 进程 ) 
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> to 
7.1 多 线程 Step 
启动 并 行 处 理 最 简单 的 方式 就 是 在 Step 配置 中 加 上 一 个 TaskExecutor , 比如 ,作为 tasklet 的 一 个 属性 : 


<step id="loading"> 
<tasklet task-executor="taskExecutor">...</tasklet> 
</step> 


上 面 的 示例 中 , taskExecutor 指 向 了 另 一 个 实现 TaskExecutor 接口 的 Bean. TaskExecutor 是 一 个 标准 的 Spring 接口 ,具体 有 
哪些 可 用 的 实现 类 ,请 参考 Spring 用 户 指南 . 最 简单 的 多 线程 TaskExecutor 实现 是 SimpleAsyncTaskExecutor. 


以 上 配置 的 结果 就 是 在 Step 在 (每 次 提交 的 块 ) 记 录 的 读 取 ， 人 处理 ， 写 入 时 都 会 在 单独 的 线程 中 执行 。 请 注意 ,这 段 话 的 意思 就 
是 在 要 处 理 的 数据 项 之 间 没 有 了 固定 的 顺序 , 并 且 一 个 非 连 续 块 可 能 包含 项 目 相 比 ,单线 程 的 例子 。 此 外 executor 还 有 一 些 限 
制 (例如 ,如 果 它 是 由 一 个 线程 池 在 后 台 执 行 的 ), 有 一 个 tasklet 的 配置 项 可 以 调整 ,throttle-limit 默 认为 4。 你 可 能 根据 需要 增加 这 
个 值 以 确保 线程 池 被 充分 利用 ,如 : 


<Step id="loading"> <tasklet 
task-executor="taskExecutor" 
throttle-limit="20">...</tasklet> 
</step> 


还 需要 注意 在 step 中 并 发 使 用 连接 池 资 源 时 可 能 会 有 一 些 限 制 ,例如 数据 库 连接 池 DataSource. 请 确保 连接 池 中 的 资源 数量 大 
于 或 等 于 并 发 线程 的 数量 . 


在 一 些 常见 的 批 处 理 情景 中 ,对 使 用 多 线程 Step 有 一 些 实际 的 限制 。Step 中 的 许多 部 分 (如 readers 和 writers) 是 有 状态 的 ,如 果 
某 些 状态 没有 进行 线程 隔离 ,那么 这 些 组 件 在 多 线程 Step 中 就 是 不 可 用 的 。 特 别 是 大 多 数 Spring Batch 提 供 的 readers 和 
writers 不 是 为 多 线程 而 设计 的 。 但 是 ,我 们 也 可 以 使 用 无 状态 或 线程 安全 的 readers 和 writers, 可 以 参考 Spring Batch Samples 
中 (parallelJob) 的 这 个 示例 (点 击 进入 Section 6.12, “Preventing State Persistence”), 示 例 中 展示 了 通过 指示 器 来 跟踪 数据 库 
input 表 中 的 哪些 项 目 已 经 被 处 理 过 ,而 哪些 还 没有 被 处 理 。 





Spring Batch 提供 了 ltemWriter 和 ltemReader 的 一 些 实现 . 通常 在 javadoc 中 会 指明 是 否 是 线程 安全 的 ,或 者 指出 在 并 发 环境 
中 需要 注意 哪些 问题 . 假若 文档 中 没有 明确 说 明 , 你 只 能 通过 查看 源 代码 来 看 看 是 否 有 什么 线程 不 安全 的 共享 状态 . 一 个 并 非 线 
程 安全 的 reader , 也 可 以 在 你 自己 处 理 了 同步 的 代理 对 象 中 高 效 地 使 用 . 


如 果 你 的 step 中 写 操 作 和 处 理 操作 所 消耗 的 时 间 更 多 ,那么 即使 你 对 read() 操 作 加 锁 进 行 同步 ,也 会 比 你 在 单线 程 环境 中 执行 要 
RRS. 
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7.2 并 行 Steps 





要 需要 并 行 的 程序 逻辑 可 以 划分 为 不 同 的 职责 ,并 分 配给 各 个 独立 的 step, 那 么 就 可 以 在 单个 进程 中 并 行 执 行 。 
很 容易 配置 和 使 用 ,例如 ,将 执行 步骤 (step1,step2) 和 步骤 3step3 并 行 执行 , 则 可 以 向 下 面 这 样 配置 一 个 流程 : 


aN 
4 


<job id="job1"> 
<split id="spliti" task-executor="taskExecutor" next="step4"> 
<flow> 
<step id="stepi" parent="si" next="step2"/> 
<step id="step2" parent="s2"/> 


</flow> 
<flow> 
<step id="step3" parent="s3"/> 
</flow> 
</split> 
<step id="step4" parent="s4"/> 


</job> 


<beans:bean id="taskExecutor" class="org.spr...SimpleAsyncTaskExecutor"/> 


并 行 Step 执 行 


可 配置 的 "task-executor" 属性 是 用 来 指明 应 该 用 哪个 TaskExecutor 实 现 来 执行 独立 的 流程 。 默 认 是 SyncTaskExecutor, 但 有 


时 需要 使 用 异步 的 TaskExecutor 来 并 行 运行 某 些 步骤 。 请 注意 ,这 项 工作 将 确保 每 一 个 流程 在 聚合 之 前 完成 .并 进 


更 详细 的 信息 请 参考 Section 5.3.5, “Split Flows”. 


7.2 并 行 Steps 


行 过 渡 。 
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7.3 远程 分 块 (Remote Chunking) 


使 用 远程 分 块 的 Step 被 拆 分 成 多 个 进程 进行 处 理 ,多 个 进程 间 通 过 中 间 件 实现 通信 . 下 面 是 一 幅 模型 示意 图 : 


Remote Chunking 


Master: Slave: 


<<Step>> <<Listener>> 





rocessor 
er 





ý ChunkProvider 
ChunkP 





Master 组 件 是 单个 进程 ,从 属 组 件 (Slaves) 一 般 是 多 个 远程 进程 。 如 果 Master 进 程 不 是 瓶颈 的 话 ,那么 这 种 模式 的 效果 几乎 是 最 


好 的 ,因此 应 该 在 处 理 数据 比 读 取 数 据 消耗 更 多 时 间 的 情况 下 使 用 (实际 应 用 中 常常 是 这 种 情形 )。 

Master 组 件 只 是 Spring Batch Step 的 一 个 实现 , 只 是 将 ltemWriter 蔡 换 为 一 个 通用 的 版 本 ,这 个 通用 版 本 "知道 " 如 何 将 数据 项 
的 分 块 作为 消息 (messages) 发 送 给 中 间 件 。 从 属 组 件 (Slaves) 是 标准 的 监听 器 (listeners), 不 论 使 用 哪 种 中 间 件 (如 使 用 JMS 时 
就 是 MesssageListeners ), Slaves 的 作用 都 是 义理 数据 项 的 分 块 (Chunks), 可 以 使 用 标准 的 ltemWriter 或 者 是 
ltemProcessor 加 上 一 个 ItemWriter, 使 用 的 接口 是 ChunkProcessor interface。 使 用 此 模式 的 一 个 优点 是 : reader, 
processor 和 writer 组 件 都 是 现成 的 (就 和 在 本 机 执行 的 step 一 样 )。 数 据 项 被 动态 地 划分 ,工作 是 通过 中 间 件 共享 的 ,因此 ,如 果 
监听 器 都 是 饥饿 模式 的 消费 者 ,那么 就 自动 实现 了 负载 平衡 。 


中 间 件 必须 持久 可 靠 ,能 保证 每 个 消息 都 会 被 分 发 , 且 只 分 发 给 单个 消费 者 。JMS 是 很 受 欢迎 的 解决 方案 ,但 在 网 格 计算 和 共享 
内 存 产 品 空间 里 还 有 其 他 可 选 的 方式 (如 Java Spaces 服 务 ; 为 Java 对 象 提供 分 布 式 的 共享 存储 器 )。 
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7.4 分 区 


Spring Batch 也 为 Step 的 分 区 执行 和 远程 执行 提供 了 一 个 SPI( 服 务 提 供 者 接口 )。 在 这 种 情况 下 , 远 端的 执行 程序 只 是 一 些 简单 
的 Step 实 例 ,配置 和 使 用 方式 都 和 本 机 处 理 一 样 容 易 。 下 面 是 一 幅 实 际 的 模型 示意 图 : 


Partitioning Overview 





在 左 侧 执行 的 作业 (Job) 是 串 行 的 Steps, 而 中 间 的 那 一 个 Step 被 标记 为 Master。 图 中 的 Slave 都 是 一 个 Step 的 相同 实例 ,对 于 
作业 来 说 ,这 些 Slave 的 执行 结果 实际 上 等 价 于 就 是 Master 的 结果 。Slaves 通 常 是 远程 服务 ,但 也 有 可 能 是 本 地 执行 的 其 他 线 
程 。 在 此 模式 中 ,Master 发 送 给 Slave 的 消息 不 需要 持久 化 (durable) ,也 不 要 求 保 证 交付 : 对 每 个 作业 执行 步骤 来 说 ,保存 在 
JobRepository 中 的 Spring Batch 元 信息 将 确保 每 个 Slave 都 会 且 仅 会 被 执行 一 次 。 


Spring Batch 的 SPI 由 Step 的 一 个 专门 的 实现 ( PartitionStep), 以 及 需要 由 特定 环境 实现 的 两 个 策略 接口 组 成 。 这 两 个 策略 接 
口 分 别 是 PartitionHandler 和 StepExecutionSplitter, 他 们 的 角色 如 下 面 的 序列 图 所 示 : 


7.4 分 


M4 
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PartitionHandler 







split) ' 





.29gregatp 


handle) | StepExecutionSplitter 


repeat 


此 时 在 右边 的 Step 就 是 “远程 "Slave, 所 以 可 能 会 有 多 个 对 象 和 /或 进程 在 扮演 这 一 角色 ,而 图 中 的 PartitionStep 在 驱动 (/ 控 制 ) 
过 


整个 执行 过 程 。PartitionStep 的 配置 如 下 所 示 : 


<step id="step1.master"> 
<partition step="stepi" partitioner="partitioner"> 
<handler grid-size="10" task-executor="taskExecutor"/> 
</partition> 
</step> 


类 似 于 多 线程 step 的 throttle-limit 属性 , grid-size 属 性 防止 单个 Step 的 任务 执行 器 过 载 。 


在 Spring Batch Samples 示 例 程序 中 有 一 个 简单 的 例子 在 单元 测试 中 可 以 拷贝 /扩展 (详情 请 参考 *PartitionJob.xml 配置 文 


件 )。 


Spring Batch 为 分 区 创建 执行 步骤 ,名 如 “step1:partition0”, 等 等 ,所 以 我 们 经 常 把 Master step 叫 做 “step1l:master"。 在 Spring 3.0 


中 也 可 以 为 Step 指 定 别名 (通过 指定 name 属性 ,而 不 是 id 属性 )。 


7.4.1 分 区 处 理 器 (PartitionHandler) 


PartitionHandler 组 件 知道 远程 网 格 环境 的 组 织 结构 。 它 可 以 发 送 StepExecution 请 求 给 远 端 Steps, 采 用 某 种 具体 的 数据 格 
式 , 例 如 DTO. 它 不 需要 知道 如 何 分 割 输入 数据 ,或 者 如 何 聚 合 多 个 步骤 执行 的 结果 。 一 般 来 说 它 可 能 也 不 需要 了 解 阐 性 或 故障 
转移 ,因为 在 许多 情况 下 这 些 都 是 结构 的 特性 ,无 论 如 何 Spring Batch 总 是 提供 了 独立 于 结构 的 可 重启 能 力 : 一 个 失败 的 作业 总 


是 会 被 重新 启动 ,并 且 只 会 重新 执行 失败 的 步骤 。 


PartitionHandler 接 口 可 以 有 各 种 结构 的 实现 类 : 如 简单 RMI 远 程 方法 调用 ,EJB 远 程 调 用 , 自 定 义 web 服 务 、JMS、Java 


Spaces, 共享 内 存 网 格 (如 Terracotta 或 Coherence)、 网 格 执行 结构 (如 GridGain)。Spring Batch 自 身 不 包含 任何 专 有 网 格 或 远 


7.4 分 区 
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但 是 Spring Batch 也 提供 了 一 个 有 用 的 PartitionHandler 实 现 ， 在 本 地 分 开 的 线程 中 执行 Steps, 该 实现 类 名 为 
TaskExecutorPartitionHandler, 并 且 他 是 上 面 的 XML 配置 中 的 默认 义理 器 。 还 可 以 像 下 面 这 样 明 确 地 指定 : 


<step id="step1.master"> 
<partition step="stepi" handler="handler"/> 
</step> 


<bean class="org.spr...TaskExecutorPartitionHandler"> 
<property name="taskExecutor" ref="taskExecutor"/> 
<property name="step" ref="step1" /> 
<property name="gridSize" value="10" /> 

</bean> 


gridSize 决 定 要 创建 的 独立 的 step 执 行 的 数量 ,所 以 它 可 以 配置 为 TaskExecutor 中 线程 池 的 大 小 ,或 者 也 可 以 设置 得 比 可 用 的 
线程 数 稍 大 一 点 ,在 这 种 情况 下 ,执行 块 变 得 更 小 一 些 。 


TaskExecutorPartitionHandler 对 于 IO 密集 型 步骤 非常 给 力 ,比如 要 拷贝 大 量 的 文件 ,或 复制 文件 系统 到 内 容 管理 系统 时 。 它 
还 可 用 于 远程 执行 的 实现 ,通过 为 远程 调用 提供 一 个 代理 的 步骤 实现 (例如 使 用 Spring Remoting)。 


7.4.2 分 割 器 (Partitioner) 


分 割 器 有 一 个 简单 的 职责 : 仅 为 新 的 step 实 例 生成 执行 环境 (contexts), 作 为 输入 参数 (这 样 重启 时 就 不 需要 考虑 )。 该 接口 只 有 
二 个 方法 : 


public interface Partitioner { 
Map<String, ExecutionContext> partition(int gridSize); 


} 


这 个 方法 的 返回 值 是 一 个 Map 对 象 ,将 每 个 Step 执 行 分 配 的 唯一 名 称 (Map 泛 型 中 的 String), 和 与 其 相关 的 输入 参数 以 
ExecutionContext 的 形式 做 一 个 映射 。 这 个 名 称 随后 在 批 处 理 meta data 中 作为 分 区 StepExecutions 的 Step 名 字 显 示 。 
ExecutionContext 仅 仅 只 是 一 些 名 - 值 对 的 集合 ,所 以 它 可 以 包含 一 系列 的 主键 ,或 行 号 ,或 者 是 输入 文件 的 位 置 。 然后 远 

程 Step 通常 使 用 矩 .…} 占 位 符 来 绑 定 到 上 下 文 输 入 (在 step 作 用 域内 的 后 期 绑 定 ), 详 情 请 参见 下 一 节 。 


step 执 行 的 名 称 ( Partitioner 接 口 返回 的 Map 中 的 key) 在 整个 作业 的 执行 过 程 中 需要 保持 唯一 , 除 此 之 外 没有 其 他 具体 要 求 。 
要 做 到 这 一 点 ,并 且 需 要 一 个 对 用 户 有 意义 的 名 称 ,最 简单 的 方法 是 使 用 前 级 + 后 级 的 命名 约定 ,前 级 可 以 是 被 执行 的 Step 的 名 
称 (这 本 身 在 作业 Job 中 就 是 唯一 的 ), 后 级 可 以 是 一 个 计数 器 。 在 框架 中 有 一 个 使 用 此 约定 的 SimplePartitioner。 


有 一 个 可 选 接口 PartitioneNameProvider 可 用 于 和 分 区 本 身 独立 的 提供 分 区 名 称 。 如 果 一 个 Partitioner 实现 了 这 个 接口 ， 


那么 重启 时 只 有 names 会 被 查询 。 如 果 分 区 是 重量 级 的 ， 那 么 这 可 能 是 一 个 很 有 用 的 优化 。 很 显 
然 ,PartitioneNameProvider 提 供 的 名 称 必须 和 Partitioner 提 供 的 名 称 一 致 。 


7.4.3 将 输入 数据 绑 定 到 Steps 


为 Step 的 输入 参数 在 运行 时 绑 定 到 ExecutionContext 中 ,所 以 由 相同 配置 的 PartitionHandler 执 行 的 steps 是 非常 高 效 的 。 通 
过 Spring Batch 的 StepScope 特 性 这 很 容易 实现 (详情 请 参考 APA). 例如 ,如 果 Partitioner 创建 ExecutionContext 实 
例 , 每 个 step 执 行 都 以 fileName 为 key 指向 另 一 个 不 同 的 文件 (或 目录 ), 则 Partitioner 的 输出 看 起 来 可 能 像 下 面 这 样 : 


表 7.1. 由 执行 目的 目录 义理 Partitioner 提 供 的 的 step 执 行 上 下 文 名 称 示例 


| Step Execution Name (key) | ExecutionContext (value) 
| filecopy:partitiono | fileName=/home/data/one | 
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| filecopy:partition1 | fileName=/home/data/two | 
| filecopy:partition2 | fileName=/home/data/three | 


然后 就 可 以 将 文件 名 绑 定 到 step 中 , step 使 用 了 执行 上 下 文 的 后 期 绑 定 : 


<bean id="itemReader" scope="step" 
class="org.spr...MultiResourceItemReader"> 
<property name="resource" value="#{stepExecutionContext [fileName] }/*"/> 


</bean> 
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重复 执行 


uml 





E 复 执行 
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EB iA 2 TB 








重 试 处 理 
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单元 测试 


单元 测试 
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通用 批 处 理 模式 








通用 批 义理 模式 
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12. JSR-352 支持 


Spring Batch 3.0 对 JSR-352 提供 完整 的 支持 . 本 节 并 不 讲述 这 个 规范 , 而 是 讲解 如 何 将 JSR-352 的 相关 概念 应 用 于 Spring 
Batch. 关于 JSR-352 的 更 多 信息 可 以 参考 JCP 网 站 : https://jcp.org/en/jsr/detail?id=352 
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附录 A ltemReader 与 ltemWriter 列表 


A.1 ltem Readers 




















Table A.1. 所 有 可 用 的 ltem Reader 列 表 








ltem Reader 说 明 


抽象 基 类 ， 支 持 重启 ， 通 过 统计 (counting) 从 ItemReader 返回 对 象 


AbstractltemCountingltemStreamltemReader = 
9 的 数量 来 实现 . 


此 ltemReader 提供 一 个 list, 用 来 存储 ItemReader 读 取 的 对 象 , 直 
到 他 们 已 准备 装配 为 一 个 集合 。 

AggregateltemReader 此 ItemReader 通过 FieldSetMapper 的 常量 值 
AggregateltemReader#BEGIN_RECORD 以 及 
AggregateltemReader#END_RECORD 来 标记 记录 的 开始 与 结 


给 定 一 个 提供 同步 获取 方法 ( synchronous receive methods) 的 
AmapltemReader Spring AmqpTemplate. 使 用 receiveAndConvert() 方法 可 以 得 到 
POJO 对 象 . 


从 平面 文件 (flat file) 中 读 取 数 据 ， 支 持 llemStream 以 及 Skippable 
FlatFileltemReader 特性 . 请 参考 Read froma File 一 节 
从 基于 HQL 查询 的 cursor 中 读 取 数 据 。 请 参考 Reading from a 


HibernateCursorltemReader pr 
Database 一 节 。 


HibernatePagingltemReader 从 分 页 (paginated) 的 HQL 查 询 中 读 取 数 据 
通过 iBATIS 的 分 页 查询 读 取 数 据 ， 对 于 大 型 数据 集 ,分 页 能 避免 内 存 
lbatisPagingltemReader 不 足 / 浴 出 的 问题 . 请 参考 : HOWTO - Read from a Database. 这 个 


ltemReader 在 Spring Batch 3.0 PERF. 
ItemReaderAdapter 将 任意 类 适 配 到 ItemReader 接口 . 


通过 JDBC 从 一 个 database cursor 中 读 取 数 据 . 请 参考 : HOWTO - 


JdbcCursorltemReader Baad from a Database 


cA E ;- ae 5 se Au 
JdbcPagingltemReader ae Lee ae ae 避免 读 取 大 型 数 


给 一 个 Spring JmsOperations 对 象 和 一 个 JMS Destination 对 象 / 也 
JmsltemReader 可 以 是 用 来 发 送 错误 的 destination name , 调用 注入 的 
JmsOperations 里 面 的 receive) 方法 来 获取 对 象 


给 定 一 个 JPQL statement, 通过 分 页 查询 读 取 数 据 ， 避 免 读 取 大 型 数 


JpaPagingltemReader 据 集 时 内 存 不 足 / 澄 出 的 问题 
ListltemReader M list 中 读 取 数 据 ， 一 次 返回 一 条 


给 定 一 个 MongoOperations 对 象 ,以 及 从 MongoDB 中 查询 数据 所 使 
Mongoltemneader 用 的 JSON, 通过 MongoOperations 的 find 方法 来 获取 数据 

给 定 一 个 Neo4jOperations 对 象 ,以 及 一 个 Cyhper query 所 需 的 
NeogtemReader components, 将 Neo4jOperations.query 方法 的 结果 返回 

给 定 一 个 Spring Data PagingAndSortingRepository 对 象 , 一 个 Sort 
RepositoryltemReader 对 象 ,以 及 要 执行 的 method name, 返回 Spring Data repository 实现 
提供 的 数据 


执行 存储 过 程 (database stored procedure), 从 返回 的 database 


StoredProcedureltemReader cursor 中 读 取 数 据 . 请 参考 : HOWTO - Read from a Database 


StaxEventltemReader 通过 StAX 读 取 . 请 参考 HOWTO - Read from a File 
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A.2 Item Writers 























Table A.2. 所 有 可 用 的 Item Writer 列表 





ltem Writer 说 明 
AbstractltemStreamltemWriter 抽象 基 类 , 组 合 了 Itemstream 和 iItemwriter 接口 。 


给 定 一 个 提供 同步 发 送 方法 的 Spring AmgpTemplate. 使 用 


Amapitemyynien convertAndSend(Object) 方法 可 以 输出 POJO 对 象 . 
CompositeltemWriter 将 注入 的 List 里 面 每 一 个 元 素 都 传 给 ItemWriter 的 人 处理 方 法 


E q 1 Ss i i| EA 
FlatFileltemWriter 写 入 平面 文件 (flat file). 支持 ltemStream 以 及 Skippable 特性 . 请 参考 
Writing to a File 一 节 


A 、 使 用 GemfireOperations 对 象 , 根据 配置 的 delete 标志 ， 对 items HTS 
GemfireltemWriter 入 或 者 删除 


这 个 item writer 是 Hibernate 会 话 相关 的 (hibernate session aware), 用 来 
HibernateltemWriter 处 理 非 hibernate 相关 的 组 件 (non-"hibernate aware" ) 不 需要 关心 的 事务 
性 工作 , 并 且 委 托 另 一 个 item writer 来 执行 实际 的 写 入 工作 . 


ar Va } ; 
IbatisBatchitemWriter o 直接 使 用 iBatis 的 API. 这 个 ItemWriter 在 Spring Batch 3.0 


ItemWriterAdapter 将 任意 类 适 配 到 Itemwriter 接口 . 


尽 可 能 地 利用 “preparedstatement 的 批 处 理 功 能 (batching features), 还 可 
JcbeBatenitemwriter 以 采取 基本 的 步骤 来 定位 ”flush 失败 等 问题 。 


利用 JmsOperations 对 象 , 通过 JmsOperations.convertAndSend() 方法 
le mtr 将 items 写 入 到 默认 队列 ( default queue) 

这 个 item writer 是 JPA EntityManager aware 的 , 用 来 处 理 非 jpa 相 关 的 
JpaltemWriter (non-"jpa aware") Itemwriter 不 需要 关心 的 事务 性 工作 , 并 且 委 托 另 一 个 
item writer 来 执行 实际 的 写 入 工作 . 


通过 Spring 的 JavaMailSender 对 象 , 类 型 为 ”MimeMessage 的 item 可 以 


MimeMessageltemWriter 作为 mail messages 发 送出 去 


给 定 一 个 MongoOperations 对 象 , 数据 通过 


MongoltemWriter MongoOperations.save(Object) AAS A. 实际 的 写 操 作 会 推迟 到 事务 提 
交 时 才 执 行 . 
给 定 一 个 Neo4jOperations 对 象 , item 通过 save(Object) 方法 完成 持久 化 ， 
eds 或 者 通过 delete(Object) 方法 来 删除 , 取决 于 Itemwriter 的 配置 


扩展 AbstractMethodlnvokingDelegator 创建 动态 参数 . 动态 参数 是 通过 注 


PropertyExtractingDelegatingltemWriter 入 的 field name 数 组 ,从 (SpringBeanWrapper) 处 理 的 item 中 获取 的 


给 定 一 个 Spring Data CrudRepository 实现 , 则 使 用 配置 文件 指定 的 方法 


RepositoryltemWriter 保存 iem 
StaxEventltemWriter nape a Ee erro 对 象 将 每 个 item 转换 为 XML, 然后 用 StAX 
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附录 C 
Appendix C. Batch Processing and Transactions 


C.1 Simple Batching with No Retry 


Consider the following simple example of a nested batch with no retries. This is a very common scenario for batch 
processing, where an input source is processed until exhausted, but we commit periodically at the end of a "chunk" of 
processing. 


| REPEAT(until=exhausted) { 


IDLE 
REPEAT(size=5) { 
input; 
output; 


一 一 一 一 wwwnNn 一 上 


The input operation (3.1) could be a message-based receive (e.g. JMS), or a file-based read, but to recover and continue 
processing with a chance of completing the whole job, it must be transactional. The same applies to the operation at (3.2) - 
it must be either transactional or idempotent. 


If the chunk at REPEAT(3) fails because of a database exception at (3.2), then TX(2) will roll back the whole chunk. 


C.2 Simple Stateless Retry 


It is also useful to use a retry for an operation which is not transactional, like a call to a web-service or other remote 
resource. For example: 


RETRY { 


al remote access; 


Ms l 

Ao) 

a gale | output; 
2 | 

2.1 | 

| } 

| 


$ 


This is actually one of the most useful applications of a retry, since a remote call is much more likely to fail and be retryable 
than a database update. As long as the remote access (2.1) eventually succeeds, the transaction TX(0) will commit. If the 
remote access (2.1) eventually fails, then the transaction TX(0) is guaranteed to roll back. 


C.3 Typical Repeat-Retry Pattern 


The most typical batch processing pattern is to add a retry to the inner block of the chunk in the Simple Batching example. 
Consider this: 


1 | REPEAT(until=exhausted, exception=not critical) { 
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| TX { 
| REPEAT(size=5) { 


| RETRY(stateful, exception=deadlock loser) { 
| input; 
| } PROCESS { 
| output; 
| } SKIP and RECOVER { 
notify; 


一 一 一 一 一 一 一 ouwuwmo 上 上 上 上 一 wnN 一 


The inner RETRY(4) block is marked as "stateful" - see the typical use case for a description of a stateful retry. This means 
that if the the retry PROCESS(5) block fails, the behaviour of the RETRY(A4) is as follows. 


e Throw an exception, rolling back the transaction TX(2) at the chunk level, and allowing the item to be re-presented to 
the input queue. 

e When the item re-appears, it might be retried depending on the retry policy in place, executing PROCESS(5) again. 
The second and subsequent attempts might fail again and rethrow the exception. 

e Eventually the item re-appears for the final time: the retry policy disallows another attempt, so PROCESS(5) is never 
executed. In this case we follow a RECOVER(6) path, effectively "skipping" the item that was received and is being 
processed. 


Notice that the notation used for the RETRY(4) in the plan above shows explictly that the the input step (4.1) is part of the 
retry. It also makes clear that there are two alternate paths for processing: the normal case is denoted by PROCESS(5), 
and the recovery path is a separate block, RECOVER(6). The two alternate paths are completely distinct: only one is ever 
taken in normal circumstances. 


In special cases (e.g. a special TranscationValidException type), the retry policy might be able to determine that the 
RECOVER(6) path can be taken on the last attempt after PROCESS(5) has just failed, instead of waiting for the item to be 
re-presented. This is not the default behavior because it requires detailed knowledge of what has happened inside the 
PROCESS(5) block, which is not usually available - e.g. if the output included write access before the failure, then the 
exception should be rethrown to ensure transactional integrity. 


The completion policy in the outer, REPEAT(1) is crucial to the success of the above plan. If the output(5.1) fails it may 
throw an exception (it usually does, as described), in which case the transaction TX(2) fails and the exception could 
propagate up through the outer batch REPEAT(1). We do not want the whole batch to stop because the RETRY(4) might 
still be successful if we try again, so we add the exception=not critical to the outer REPEAT(1). 


Note, however, that if the TX(2) fails and we do try again, by virtue of the outer completion policy, the item that is next 
processed in the inner REPEAT(3) is not guaranteed to be the one that just failed. It might well be, but it depends on the 
implementation of the input(4.1). Thus the output(5.1) might fail again, on a new item, or on the old one. The client of the 
batch should not assume that each RETRY(4) attempt is going to process the same items as the last one that failed. E.g. if 
the termination policy for REPEAT(1) is to fail after 10 attempts, it will fail after 10 consecutive attempts, but not necessarily 
at the same item. This is consistent with the overall retry strategy: it is the inner RETRY(4) that is aware of the history of 
each item, and can decide whether or not to have another attempt at it. 


C.4 Asynchronous Chunk Processing The inner batches or chunks in the typical example above can be executed 
concurrently by configuring the outer batch to use an AsyncTaskExecutor. The outer batch waits for all the chunks to 
complete before completing. 


1 | REPEAT(until=exhausted, concurrent, exception=not critical) { 
2 | TAT 
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| REPEAT(size=5) { 


| RETRY(stateful, exception=deadlock loser) { 
ak | input; 
| } PROCESS { 
output; 
| } RECOVER { 
recover; 


一 一 一 一 一 一 一 上 一 mm 上 上 一 


C.5 Asynchronous Item Processing The individual items in chunks in the typical can also in principle be processed 
concurrently. In this case the transaction boundary has to move to the level of the individual item, so that each transaction 
is on a single thread: 


REPEAT(until=exhausted, exception=not critical) { 
REPEAT(size=5, concurrent) { 


WOT 
RETRY(stateful, exception=deadlock loser) { 
input; 
} PROCESS { 
output; 
} RECOVER { 
recover; 





一 一 一 一 一 一 一 上 一 mm 上 上 上 ww 一 RN 一 上 
BB 


This plan sacrifices the optimisation benefit, that the simple plan had, of having all the transactional resources chunked 
together. It is only useful if the cost of the processing (5) is much higher than the cost of transaction management (3). 


C.6 Interactions Between Batching and Transaction Propagation There is a tighter coupling between batch-retry and TX 
management than we would ideally like. In particular a stateless retry cannot be used to retry database operations with a 
transaction manager that doesn't support NESTED propagation. 


For a simple example using retry without repeat, consider this: 


al |) ABS 

| 

alae | input; 

zca] database access; 
2 | RETRY { 

3 | TE 

:| database access; 
| i 

| F 

| 

[ee 


Again, and for the same reason, the inner transaction TX(3) can cause the outer transaction TX(1) to fail, even if the 
RETRY (2) is eventually successful. 


Unfortunately the same effect percolates from the retry block up to the surrounding repeat batch if there is one: 
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REPEAT( size=5) { 
input; 
database access; 
RETRY { 
TOEG 
database access; 
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Now if TX(3) rolls back it can pollute the whole batch at TX(1) and force it to roll back at the end. 


What about non-default propagation? 


e Inthe last example PROPAGATION REQUIRES _ NEW at TX(3) will prevent the outer TX(1) from being polluted if both 
transactions are eventually successful. But if TX(3) commits and TX(1) rolls back, then TX(3) stays committed, so we 
violate the transaction contract for TX(1). If TX(3) rolls back, TX(1) does not necessarily (but it probably will in practice 
because the retry will throw a roll back exception). 

e PROPAGATION_NESTED at TX(3) works as we require in the retry case (and for a batch with skips): TX(3) can 
commit, but subsequently be rolled back by the outer transaction TX(1). If TX(3) rolls back, again TX(1) will roll back in 
practice. This option is only available on some platforms, e.g. not Hibernate or JTA, but it is the only one that works 
consistently. 


So NESTED is best if the retry block contains any database access. 


C.7 Special Case: Transactions with Orthogonal Resources Default propagation is always OK for simple cases where there 
are no nested database transactions. Consider this (where the SESSION and TX are not global XA resources, so their 
resources are orthogonal): 


SESSION { 
input; 
RETRY { 
TX 
database access; 


ee Ca He 


Here there is a transactional message SESSION(0), but it doesn't participate in other transactions with 
PlatformTransactionManager, so doesn't propagate when TX(3) starts. There is no database access outside the RETRY(2) 
block. If TX(3) fails and then eventually succeeds on a retry, SESSION(0) can commit (it can do this independent of a TX 
block). This is similar to the vanilla "best-efforts-one-phase-commit" scenario - the worst that can happen is a duplicate 
message when the RETRY(2) succeeds and the SESSION(0) cannot commit, e.g. because the message system is 
unavailable. 


C.8 Stateless Retry Cannot Recover The distinction between a stateless and a stateful retry in the typical example above is 
important. It is actually ultimately a transactional constraint that forces the distinction, and this constraint also makes it 
obvious why the distinction exists. 


We start with the observation that there is no way to skip an item that failed and successfully commit the rest of the chunk 
unless we wrap the item processing in a transaction. So we simplify the typical batch execution plan to look like this: 


0 | REPEAT(until=exhausted) { 
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TX { 
REPEAT(size=5) { 


RETRY(stateless) { 
TX { 
1 input; 
2 database access; 
} 
} RECOVER { 
:二 skip; 





es A PS Se E ES 


Here we have a stateless RETRY(3) with a RECOVER(5) path that kicks in after the final attempt fails. The "stateless" label 
just means that the block will be repeated without rethrowing any exception up to some limit. This will only work if the 
transaction TX(4) has propagation NESTED. 


If the TX(3) has default propagation properties and it rolls back, it will pollute the outer TX(1). The inner transaction is 
assumed by the transaction manager to have corrupted the transactional resource, and so it cannot be used again. 


Support for NESTED propagation is sufficiently rare that we choose not to support recovery with stateless retries in current 
versions of Spring Batch. The same effect can always be achieved (at the expense of repeating more processing) using the 
typical pattern above. 
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术语 表 (Glossary) 
Spring Batch 4K 


Batch 批 


An accumulation of business transactions over time. 


随 着 时 间 累 积 而 形成 的 一 批 业 务 事 务 。 


Batch Application Style ( 批 处 理 程序 风格 ) 


Term used to designate batch as an application style in its own right similar to online, Web or SOA. lt has standard 
elements of input, validation, transformation of information to business model, business processing and output. In addition, 
it requires monitoring at a macro level. 


用 来 称呼 批 处 理 自 身 的 程序 风格 的 术语 ， 类 似 于 online, Web 或 者 SOA 其 具有 的 标准 元 素 包 括 : 输入 、 验 证 、 将 信息 转 
换 为 业务 模型 、 业 务 处 理 以 及 输出 。 此 外 ,还 需要 在 宏观 层面 上 进行 监控 。 


Batch Processing ( 批 处 理 任 务 ) 


The handling of a batch of many business transactions that have accumulated over a period of time (e.g. an hour, day, 
week, month, or year). It is the application of a process, or set of processes, to many data entities or objects in a repetitive 
and predictable fashion with either no manual element, or a separate manual element for error processing. 


积累 了 一 定时 间 周 期 (比如 小 时 、 天 、 周 、 月 或 年 ) 的 业务 事务 轨 到 一 批 进行 处 理 。 这 种 程序 可 以 有 一 个 进程 ,或 者 一 组 进程 ; 以 
重复 可 预测 的 方式 处 理 很 多 数据 实体 /对 象 ,要 么 没有 人 工 干预 ， 或 者 有 些 错误 需要 人 工 单独 进行 处 理 。 


Batch Window ( 批 处 理 窗口 ) 


The time frame within which a batch job must complete. This can be constrained by other systems coming online, other 
dependent jobs needing to execute or other factors specific to the batch environment. 


批 你 理 作业 必须 在 这 个 时 间 范 围 内 完成 。 可 能 受到 的 制约 包括 : 其 他 系统 要 上 线 , 相关 作业 要 执行 , 或 者 是 特定 于 批 处 理 环境 
的 其 他 因素 。 


Step (步骤 ) 


It is the main batch task or unit of work controller. It initializes the business logic, and controls the transaction environment 
based on commit interval setting, etc. 


这 是 主要 的 批 处 理 任务 , 或 者 工作 控制 器 的 组 成 单元 。 在 其 中 进行 业务 逻辑 初始 化 , 基于 提交 间隔 控制 事务 环境 ,等 等 。 


Tasklet (小 任务 ) 


A component created by application developer to process the business logic for a Step. 


由 程序 员 创 建 的 组 件 , 用 来 处 理 某 个 step 中 的 业务 逻辑 。 


Batch Job Type ( 批 处 理 作业 类型) 
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Job Types describe application of jobs for particular type of processing. Common areas are interface processing (typically 
flat files), forms processing (either for online pdf generation or print formats), report processing. 


ioe 类 型 描述 特定 类 型 的 作业 义理 程序 。 共 同 领域 包括 接口 处 理 ( 通 常 是 平面 文件 ), 格式 处 理 (如 在 线 生成 pdf 或 打印 格式 ), 报 


Driving Query (驱动 查询 ) 


A driving query identifies the set of work for a job to do; the job then breaks that work into individual units of work. For 
instance, identify all financial transactions that have a status of "pending transmission" and send them to our partner 
system. The driving query returns a set of record IDs to process; each record ID then becomes a unit of work. A driving 
query may involve a join (if the criteria for selection falls across two or more tables) or it may work with a single table. 


一 次 驱动 查询 用 来 标识 一 个 作业 要 做 的 工作 组 ; 然后 工作 被 打 散 为 单个 的 工作 单元 。 例 如 , 找 出 所 有 状态 为 "等待 传输 "的 金融 


交易 并 发 送 给 合作 伙伴 系统 。 驱 动 查询 返回 要 义理 的 记录 的 ID 集合 ; 每 个 记录 ID 稍 后 都 会 成 为 一 个 工作 单元 。 一 次 驱动 查询 
可 能 涉及 join 连接 (如 果 条 件 遇 到 两 个 或 多 个 表 ), 也 可 能 只 使 用 单个 表 。 


ltem (数据 项 ) 


An item represents the smallest ammount of complete data for processing. In the simplest terms, this might mean a line in 
a file, a row in a database table, or a particular element in an XML file. 


一 个 item 代表 要 义理 的 最 小 的 完整 的 数据 。 最 简单 的 理解 , 可 以 是 文件 中 的 一 行 (line), 数据 表 中 的 一 行 (row), 或 者 XML 文件 
中 一 个 特定 的 元 素 (element)。 


Logical Unit of Work (LUW, 逻辑 工作 单元 ) 
原文 可 能 错 了 Logicial 


A batch job iterates through a driving query (or another input source such as a file) to perform the set of work that the job 
must accomplish. Each iteration of work performed is a unit of work. 


批 处 理 作 业 通 过 驱动 查询 (或 者 是 文件 之 类 的 输入 源 ) 来 欠 代 执行 必须 完成 的 工作 。 工 作 执行 中 的 每 次 迭代 就 是 一 个 工作 单 


Ts 


Commit Interval (提交 区 间 ) 

A set of LUWs processed within a single transaction. 

在 单个 事务 中 处 理 的 逻辑 工作 单元 集合 . 

Partitioning (分 块 , 分 区 ) 

Splitting a job into multiple threads where each thread is responsible for a subset of the overall data to be processed. The 
threads of execution may be within the same JVM or they may span JVMs in a clustered environment that supports 


workload balancing. 


将 一 个 作业 拆 分 给 多 个 线程 来 执行 , 每 个 线程 只 负责 处 理 整 个 数据 中 的 一 部 分 。 这 些 线程 可 能 在 同一 个 JVM 中 执行 , 也 可 能 跨 
越 JVM 在 支持 工作 负载 平衡 的 集群 环境 中 运行 。 


Staging Table (分 段 表 ,阶段 表 ) 


A table that holds temporary data while it is being processed. 
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一 个 存储 临时 数据 的 表 , 里 面 的 数据 即将 被 处 理 。 


Restartable (可 再 次 启动 的 ) 


A job that can be executed again and will assume the same identity as when run initially. In otherwords, it is has the same 
job instance id. 





可 再 次 执行 的 作业 , 而 且 再 次 执行 时 , 和 初次 运行 具有 同样 的 身份 。 换 言 之 , 两 者 具有 相同 的 作业 实例 id. 


Rerunnable (可 再 次 运行 ) 


A job that is restartable and manages its own state in terms of previous run's record processing. An example of a 
rerunnable step is one based on a driving query. If the driving query can be formed so that it will limit the processed rows 
when the job is restarted than it is re-runnable. This is managed by the application logic. Often times a condition is added to 
the where statement to limit the rows returned by the driving query with something like "and processedFlag != true". 








可 再 次 启动 的 作业 , 并 且 可 根据 之 前 的 处 理 记 录 来 合理 调整 自身 的 状态 。 可 再 次 运行 Step 的 一 个 例子 是 基于 driving query 的 
部 分 。 如 果 是 re-runnable 的 , 那么 当 restarted 后 , driving query 就 会 排除 已 经 处 理 过 的 那些 行 。 当 然 这 由 应 用 程序 逻辑 决 
定 。 通 常 是 在 where 子 句 中 添加 条 件 来 限制 查询 返回 的 结果 , 例如 “processedFlag != true”, 


Repeat (重复 ) 


One of the most basic units of batch processing, that defines repeatability calling a portion of code until it is finished, and 
while there is no error. Typically a batch process would be repeatable as long as there is input. 


批 处 理 最 基本 的 单元 之 一 , 定义 了 可 重复 调用 的 一 部 分 代码 , 直到 完成 某 个 任务 为 止 , 如 果 不 出 错 的话 。 通 常 来 说 , 只 要 还 有 输 
入 数据 , 批 处 理 过 程 就 会 一 直 重复 。 


Retry ( 重 试 ) 


Simplifies the execution of operations with retry semantics most frequently associated with handling transactional output 
exceptions. Retry is slightly different from repeat, rather than continually calling a block of code, retry is stateful, and 
continually calls the same block of code with the same input, until it either succeeds, or some type of retry limit has been 
exceeded. It is only generally useful if a subsequent invocation of the operation might succeed because something in the 
environment has improved. 


简化 了 的 重 试 语义 通常 和 事务 输出 异常 处 理 有 关 。 重 试 (Retry) 和 重复 (Repeat) 略 有 不 同 , 不 仅仅 是 持续 不 断 地 调用 某 个 代码 


块 , 因为 重 试 是 有 状态 的 , 所 以 每 次 都 是 使 用 相同 的 输入 , 直到 成 功 为 止 , 或 者 是 已 经 超过 了 某 种 类 型 的 重 试 限制 。 一 般 只 有 在 
依赖 某 种 外 部 环境 的 情况 下 , 如 果 外 部 环境 得 到 改善 , 就 会 使 得 后 续 操作 会 成 功 的 情况 下 就 会 很 有 用 。 


Recover (恢复 ) 

Recover operations handle an exception in such a way that a repeat process is able to continue. 
恢复 操作 用 来 对 付 异 常 , 通过 这 种 方式 使 重复 过 程 得 以 继续 下 去 。 

Skip ( 跳 过 ) 


Skip is a recovery strategy often used on file input sources as the strategy for ignoring bad input records that failed 
validation. 


跳 过 是 一 种 容错 策略 , 通常 在 读 取 文 件 输入 时 ， 用 来 忽略 验证 失败 的 脏 数据 。 
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